- 浏览: 229897 次
- 性别:
- 来自: 北京
文章分类
最新评论
-
thepastsee:
304572183股票交流 欢迎加入
实时股票 -
345161974:
很不错,我第一个接触的CSS卡片布局效果,多谢
css卡片效果
转
http://www.iteye.com/topic/1097560
最近在做一个反馈功能,把数据反馈到对方公司网站,我公司是GBK编码,对方公司是UTF-8编码。因此,我需要将GBK编码数据转换成UTF-8编码数据,这样对方网站才不会乱码。最简单的方法是将HttpClient的ContentCharset设置为utf-8;如果ContentCharset是gbk并且又不想设置为utf-8,那么就需要将数据转换成UTF-8编码再发到对方网站。
问题出现:GBK转UTF-8时,奇数个中文会乱码,偶数个中文不会乱码。
三个中文
- String gbk = "我来了";
- String utf8 = new String(gbk.getBytes("UTF-8"));
- //模拟UTF-8编码的网站显示
- System.out.println(new String(utf8.getBytes(),"UTF-8"));
- }
- /*
- 我来??
- */
public static void encodeError() throws UnsupportedEncodingException { String gbk = "我来了"; String utf8 = new String(gbk.getBytes("UTF-8")); //模拟UTF-8编码的网站显示 System.out.println(new String(utf8.getBytes(),"UTF-8")); } /* 我来?? */
前面三个中文,后面一个中文,都是奇数
- public static void encodeError2() throws UnsupportedEncodingException {
- String gbk = "今年是2011年";
- String utf8 = new String(gbk.getBytes("UTF-8"));
- //模拟UTF-8编码的网站显示
- System.out.println(new String(utf8.getBytes(),"UTF-8"));
- }
- /*
- 今年??011??
- */
public static void encodeError2() throws UnsupportedEncodingException { String gbk = "今年是2011年"; String utf8 = new String(gbk.getBytes("UTF-8")); //模拟UTF-8编码的网站显示 System.out.println(new String(utf8.getBytes(),"UTF-8")); } /* 今年??011?? */
原因:为什么只有奇数个中文才乱码,偶数个却不乱码?下面来分析原因
- public static void analyze() throws UnsupportedEncodingException {
- String gbk = "我来了";
- String utf8 = new String(gbk.getBytes("UTF-8"));
- for (byte b : gbk.getBytes("UTF-8")) {
- System.out.print(b + " ");
- }
- System.out.println();
- for (byte b : utf8.getBytes()) {
- System.out.print(b + " ");
- }
- }
- /*
- -26 -120 -111 -26 -99 -91 -28 -70 -122
- -26 -120 -111 -26 -99 -91 -28 -70 63
- */
public static void analyze() throws UnsupportedEncodingException { String gbk = "我来了"; String utf8 = new String(gbk.getBytes("UTF-8")); for (byte b : gbk.getBytes("UTF-8")) { System.out.print(b + " "); } System.out.println(); for (byte b : utf8.getBytes()) { System.out.print(b + " "); } } /* -26 -120 -111 -26 -99 -91 -28 -70 -122 -26 -120 -111 -26 -99 -91 -28 -70 63 */
注意最后一个字节不同,上面一行才是正确的UTF-8编码。那么为什么下面一行最后一个字节是63,而不是-122呢?这就是导致乱码的原因所在。
GBK编码是一个中文2个字节,而UTF-8编码是一个中文3个字节,当我们调用getBytes("UTF-8")方法时,会通过计算来增加字节,使得从GBK的2个字节变成UTF-8对应的3个字节。因此,上例3个中文输出了9个字节。
这里讲一下怎么通过计算增加字节,不深究的读者可以跳过此段。为了醒目,直接用代码讲解
- public static void gbk2Utf() throws UnsupportedEncodingException {
- String gbk = "我来了";
- char[] c = gbk.toCharArray();
- byte[] fullByte = new byte[3*c.length];
- for (int i=0; i<c.length; i++) {
- String binary = Integer.toBinaryString(c[i]);
- StringBuffer sb = new StringBuffer();
- int len = 16 - binary.length();
- //前面补零
- for(int j=0; j<len; j++){
- sb.append("0");
- }
- sb.append(binary);
- //增加位,达到到24位3个字节
- sb.insert(0, "1110");
- sb.insert(8, "10");
- sb.insert(16, "10");
- fullByte[i*3] = Integer.valueOf(sb.substring(0, 8), 2).byteValue();//二进制字符串创建整型
- fullByte[i*3+1] = Integer.valueOf(sb.substring(8, 16), 2).byteValue();
- fullByte[i*3+2] = Integer.valueOf(sb.substring(16, 24), 2).byteValue();
- }
- //模拟UTF-8编码的网站显示
- System.out.println(new String(fullByte,"UTF-8"));
- }
public static void gbk2Utf() throws UnsupportedEncodingException { String gbk = "我来了"; char[] c = gbk.toCharArray(); byte[] fullByte = new byte[3*c.length]; for (int i=0; i<c.length; i++) { String binary = Integer.toBinaryString(c[i]); StringBuffer sb = new StringBuffer(); int len = 16 - binary.length(); //前面补零 for(int j=0; j<len; j++){ sb.append("0"); } sb.append(binary); //增加位,达到到24位3个字节 sb.insert(0, "1110"); sb.insert(8, "10"); sb.insert(16, "10"); fullByte[i*3] = Integer.valueOf(sb.substring(0, 8), 2).byteValue();//二进制字符串创建整型 fullByte[i*3+1] = Integer.valueOf(sb.substring(8, 16), 2).byteValue(); fullByte[i*3+2] = Integer.valueOf(sb.substring(16, 24), 2).byteValue(); } //模拟UTF-8编码的网站显示 System.out.println(new String(fullByte,"UTF-8")); }
现在我们来找出最后一个字节是63,而不是-122的原因。
- public static void analyze2() throws UnsupportedEncodingException {
- String gbk = "我来了";
- byte[] utfBytes = gbk.getBytes("UTF-8");//得到9个字节
- String utf8 = new String(utfBytes);//问题就出在这
- System.out.print(utf8);
- }
- /*
- 鎴戞潵浜?
- */
public static void analyze2() throws UnsupportedEncodingException { String gbk = "我来了"; byte[] utfBytes = gbk.getBytes("UTF-8");//得到9个字节 String utf8 = new String(utfBytes);//问题就出在这 System.out.print(utf8); } /* 鎴戞潵浜? */
因为文件是GBK编码,new String(utfBytes)默认就是new String(utfBytes,"GBK")。它会2个字节2个字节地转换成字符,当字节是奇数时最后1个字节转字符就会计算错误,然后直接赋予最后这个字符为?,对应ASCII代码就是63。
解决问题
保证字节正确才是硬道理。当调用getBytes("UTF-8")转换成字节数组后,创建ISO-8859-1编码的字符串,ISO-8859-1编码是一个字节对应一个字符,因此不会使最后一个字节错误。
- public static void correctEncode() throws UnsupportedEncodingException {
- String gbk = "我来了";
- String iso = new String(gbk.getBytes("UTF-8"),"ISO-8859-1");
- for (byte b : iso.getBytes("ISO-8859-1")) {
- System.out.print(b + " ");
- }
- System.out.println();
- //模拟UTF-8编码的网站显示
- System.out.println(new String(iso.getBytes("ISO-8859-1"),"UTF-8"));
- }
- /*
- -26 -120 -111 -26 -99 -91 -28 -70 -122
- 我来了
- */
public static void correctEncode() throws UnsupportedEncodingException { String gbk = "我来了"; String iso = new String(gbk.getBytes("UTF-8"),"ISO-8859-1"); for (byte b : iso.getBytes("ISO-8859-1")) { System.out.print(b + " "); } System.out.println(); //模拟UTF-8编码的网站显示 System.out.println(new String(iso.getBytes("ISO-8859-1"),"UTF-8")); } /* -26 -120 -111 -26 -99 -91 -28 -70 -122 我来了 */
发表评论
-
jdbc_连接池_转
2012-02-19 22:49 0http://z466459262.iteye.com/bl ... -
java_贪吃蛇——
2012-01-17 11:14 793ADADS -
java并发重构ppt_转温 少
2011-06-23 16:04 621ooooo -
单例模式七种写法_转
2011-05-26 23:19 749kjljkl -
设计模式_code_转转转
2011-05-25 17:14 639kljlj -
java_字符串操作——插入、替换、删除_转
2011-03-18 18:38 1214字符串操作——插入、替换、删除 ... -
mysq 存储过程技术手册
2011-02-17 22:49 423jklkj -
mysql专家_分析pdf
2011-02-17 20:43 828dfasdfasdf -
成均科技_面试
2011-02-16 17:38 821成均科技: XmlHttpRequest 浏览器对 ... -
java 学习方向
2011-01-26 16:56 640http://newleague.iteye.com/ ... -
多线程背课__售票_转转转
2011-01-25 10:19 749票真难买呀,咋回个家就怎么难呢? 这几天学习了下线程, ... -
web 项目_ log4j__转转java3Z
2011-01-18 22:16 972在web应用中使用日志工具log4J ... -
汉字排序_java_转转
2011-01-15 17:09 870java中漢字按拼音排序 ... -
ecilpse_apanta_
2011-01-15 00:11 973<!-- [if gte mso 9]><x ... -
linux_virutalBox_固定ip_转转
2011-01-12 21:35 923Windows XP通过Sun VirtualBox ... -
存储过程_转转转 _ibatis
2011-01-04 21:14 1265作者:袁光东 我们在进行pl/sql编程时打交道最多的 ... -
J2EE项目异常处理_转
2011-01-04 21:08 663J2EE 项目异常处理 ... -
防盗链_图片
2010-12-30 08:57 849做个图片的防盗链 ... -
java 缩略图__转
2010-12-24 00:29 714//----------------------------- ... -
url_中文_竹林仙_转转转
2010-12-22 18:23 653//----------------------------- ...
相关推荐
可以实现编码转换,使用编码utf-8转换成gbk
GBK、UTF-8批量文件3秒快速转码工具(支持GBK,UTF-8免费转换),UTF-8/GBK编码在线转换工具,压缩包可以有多目录与文件,如目录中有图片不会转码,但是会随转码好的文件一起打包下载。 使用帮助 . 上传压缩包(仅支持zip...
UTF-8toGBK_labview编码gbk_LabVIEWUTF-8_utf-8toGbk_源码.zip
|————create_direct_pay_by_user-CSHARP-UTF-8 |————create_direct_pay_by_user-JAVA-GBK |————create_direct_pay_by_user-JAVA-UTF-8 |————create_direct_pay_by_user-PHP-GBK |————...
C#写的 GBK GB2312 UTF-8转换 功能简单,仅供学习
基于MFC CString的GBK与UTF-8编码转换,在网上找到一些代码都有问题,但都存在一些错误。现在改好了,与大家分享一下。 (MFC 非UNICODE)
c 源码, gbk和utf8 互相转换(不含库) 通过查表实现转换 实际转换为 gbk -- unicode --utf8
AddClientEncoding "(Microsoft .* DAV $)" UTF-8 GBK GB2312 AddClientEncoding "Microsoft .* DAV" UTF-8 GBK GB2312 AddClientEncoding "Microsoft-WebDAV*" UTF-8 GBK GB2312 6、#service httpd restart
请使用这款软件,直接将代码转换为UTF-8 注意: 1、xml不需要转换,因为xml默认是utf-8,在你新建的时候已经是正确的格式了 2、图片更不需要转换 3、bin目录,gen目录的直接忽略 4.只需要src目录的代码转换,请确保...
批量文件转码工具(支持 GBK,UTF-8 转换)。 批量文件转码工具,支持GBK,UTF-8转换,window下面使用,亲测可以使用!!!!!!!!!! 批量 文件转码 工具 GBK UTF-8
Linux 下批量 gbk 转 utf-8 编码脚本
python 实现gbk 编码文件转utf-8编码格式
老项目采用GBK编码格式,而新项目采用的UTF-8编码格式,如果直接把Java源代码复制到Eclipse中所有的中文信息会出现乱码。所以写了个小的方法类,将java文件的编码格式从GBK转UTF-8
批量 convertz.rar GBK 转 UTF-8 gb2312 转 UTF-8 Iso-8959-1 转 UTF-8
文件包含:gbk2utf-8.bat、utf-82gbk.bat、iconv.exe及使用说明.txt四个文件 使用说明:1把要转换的所有.h和.c文件拷入该目录下,双击相应的bat文件即可。 2转换结果会保存在utf-8Res或gbkRes目录下。 3如果转换除...
这是个可以实现UTF-8与GB2312之间的互换类,已封装成类,调用简单,使用方便!(推荐下载)
批量文件转码工具,支持GBK,UTF-8转换,window下面使用,亲测可以使用!!!!!!!!!!
Java工程编码格式由GBK转化成utf-8(编码格式互转) https://ymjin.blog.csdn.net/article/details/118769530
转码工具 解决项目中乱码问题 完成gbk到utf-8的双向转换
Recognize类判定指定文本文件为UTF-8还是GBK编码格式。