`

java 编码 UTF-8、ISO-8859-1、GBK

 
阅读更多

java 编码 UTF-8、ISO-8859-1、GBK

  Java支持UTF-8、ISO-8859-1、GBK等各种字体编码,可笔者发现Java中字体编码的问题仍难倒了不少程序员,网上虽然也有不少关于在Java中如何正确显示中文的文章,但都不够全面,笔者特意总结如下。

  影响Java中字体编码正确显示的有几个因素: 1)数据库的连接方式; 2)网页中使用的字体编码; 3)数据库里存放数据的字体编码; 4)Java的缺省字体编码。如果在编程中遇到不能正确显示中文时,要先弄清楚以上几项所使用的字体编码,再分析找出原因,即可解决问题。

  众所周知,JSP是Java的一种,和网页有关,而网页也有自己的中文编码系统,所以JSP处理中文要比纯Java的类文件更为麻烦。本文的测试数据库是MySQL3.2,数据库连接驱动是用org.gjt.mm.mysql.Driver,这里主要讨论UTF-8和GBK的显示( GB2312是GBK的一个子集,Java中可以使用GBK来代替GB系列)。我们先来研究JSP中字体编码问题,下面第一到第六点是针对JSP的(因为从数据库里读出中文数据与写入中文数据有所区别,咱们分别说明,前三点是从读取数据库到显示在网页,后三点是从网页输入数据到存入数据库),第七到第九点针对纯Java的类文件。以下rs表示ResultSet的一个实例,是执行Select语句之后产生的数据集。

  一、数据库连接方式使用UTF-8

  在连接数据库的驱动后面加上这句参数useUnicode=true&characterEncoding=

  UTF-8,例如jdbc:mysql://localhost/DBVF?autoReconnect=true&use Unicode=

  true&characterEncoding=UTF-8,从数据库里读出中文显示在使用GBK的JSP的网页里,如果数据库里存放的字体编码是UTF-8,在JSP中使用 str=new String(rs.getBytes(1),"UTF-8")或者str=rs.getString(1),可以正确显示中文。如果数据库里存放的是 GBK数据,那么JSP中也要使用str=new String(rs.getBytes(1),"GBK")来显示正确的中文。值得注意的是如果页面使用UTF-8,数据库里存放的是UTF-8,也可以用str=new String(rs.getBytes(1),"GBK")正确显示中文。如果网页是UTF-8,而数据库里存放的是GBK,无法直接显示中文,需要2步转换, str=new String(rs.getBytes(1),"GBK"); 再str=new String(str.getBytes("UTF-8"),"GBK"),才可以正确显示中文。

  二、数据库连接方式使用GBK

  在连接数据库的驱动后面加上这句参数useUnicode=true&characterEncoding=

  GBK,例如jdbc:mysql://localhost/DBVF?autoReconnect=true&Use Unicode=true&

  characterEncoding=GBK,从数据库里读出中文,显示在使用GBK的JSP的网页里,如果数据库里存放的字体编码是 UTF-8,在JSP中一定要使用 str=new String(rs.getBytes(1),"UTF-8"),才正确显示中文。如果数据库里存放的是GBK数据,那么JSP中也要使用str=new String(rs.getBytes(1),"GBK") 或者直接使用str=rs.getString(1),即可显示正确的中文。如果网页是UTF-8,而数据库里存放的是GBK,只能用str=new String(rs.getString(1).getBytes("UTF-8"),"GBK")的方法来显示中文; 如果网页是UTF-8,而数据库里存放的是UTF-8,可用str=new String(rs.getBytes(1),"GBK") 或者rs.getString(1)方法来显示中文。

  三、使用缺省数据库连接方式

  连接数据库的驱动后面没有这句参数useUnicode=&characterEncoding=,例如 jdbc:mysql://localhost/DBVF?autoReconnect=true,没有参数useUnicode=true& characterEncoding,表示使用默认的ISO-8895-1编码。

  1. 从数据库里读出中文,显示在GBK的网页里。如果数据库里存放的字体编码是UTF-8,在JSP网页中一定要使用语句 str=new String(rs.getBytes(1),"UTF-8") 或者str= new String(rs.getString(1).getBytes("ISO-8859-1"),"UTF -8"),才可正确显示中文。如果数据库里存放的是GBK数据,那么JSP中也要使用str=new String(rs.getBytes(1),"GBK")或str=new String(rs.getString(1).getBytes("ISO-8859-1"),"GBK ") 显示正确的中文。

  2. 如果网页是UTF-8,不能直接正确显示GBK,需要2步转换,str=new String(rs.getBytes(1),"GBK"),再str=new String(str.getBytes("UTF-8"),"GBK") 才可以正确显示中文。如果数据库里存的是UTF-8,直接用str=new String(rs.getBytes(1),"GBK")或者str=new String(rs.getString(1).getBytes("ISO-8859-1"),"GBK ")就可以显示中文了。

  以上是读取数据库里中文正确显示在网页上,下面三点是如何正确存入数据库。

  四、数据库连接方式使用UTF-8编码

  JSP中要把网页输入的中文存入数据库,通常有一个提交(Submit)的过程,是用 str=request.getParameter("username"),然后执行update或者insert语句来存入数据库。如何赋值给str 很重要,而且这里中文输入与网页所使用的字体编码有关。

  1、 网页使用UTF-8,使用str= new String(request.getParameter("username").getBytes(" ISO-8859-1"),"UTF-8")或者str= new String(request.getParameter("username").getBytes() ,"UTF-8"),都可以使得存到数据库里的数据是UTF-8编码。

  2. 网页使用GBK,使用str= new String(request.getParameter("username").getBytes() ,"GBK"),那么存入数据库的是UTF-8编码。

  3. 值得注意的是使用UTF-8的数据库连接方式不能存得GBK。

  五、数据库连接方式使用GBK编码

  1. 输入使用GBK网页,存到数据库里是GBK的方法: str= new String(request.getParameter("username").getBytes(" ISO-8859-1"),"GBK") 或者str= new String(request.getParameter("username").getBytes() ,"GBK")。

  2. 网页使用GBK,想存入UTF-8到数据库里,要分2步: 先str=new String(request.getParameter("username").getBytes() ,"GBK"),再str=new String(str.getBytes("UTF-8"),"GBK")即可。

  3. 网页使用UTF-8,而且使用str= new String(request.getParameter("username").getBytes(" ISO-8859-1"),"GBK") 或者str= new String(request.getParameter("username").getBytes() ,"UTF-8"),那么存到数据库里的数据是 UTF-8编码。

  4. 网页使用UTF-8,而且使用str= new String(request.getParameter("username").getBytes(" ISO-8859-1"),"UTF-8"),那么存到数据库里的数据是GBK编码。

  六、数据库连接方式使用缺省,即不使用参数useUnicode和characterEncoding

  1. 网页使用GBK,如果使用str= request.getParameter("username")或者str= new String(request.getParameter("username").getBytes() ),那么在数据库里的数据是GBK码。网页使用 UTF-8 和使用str= request.getParameter("username"),则存入数据库是UTF-8编码。

  2. 如果使用str= new String(request.getParameter("username").getBytes(" ISO-8859-1")),那么根据网页提供的字体编码而存到数据库里,比如是UTF-8的网页,那么存到数据库中就是UTF-8编码,如果使用GBK网页,那么存到数据库里的字就是GBK编码。

  3. 如果使用str= new String(request.getParameter("username").getBytes(" UTF-8"),"UTF-8")这一种组合能存到正确的数据外,其他存到数据库里的数据则都是乱码或者错误码。在这个UTF-8组合的特例中,网页使用的是GBK,则存放到数据库里就是GBK,网页使用UTF-8,那么存到数据库里的就是UTF-8。

  4. 网页是GBK的要存得UTF-8,一定需要2步: company=new String(request.getParameter("company").getBytes(), "GBK")和company=new String(company.getBytes("UTF-8"))。

  5. 网页是UTF-8的,不能存得GBK在数据库里,一句话,改变数据库连接方式不能存得GBK码。

  以上所有的都是基于JSP网页和数据库交换数据,下面讨论一下纯JAVA编程下的字体编码转换。

  七、数据库连接方式使用UTF-8编码

  1. 数据库里的中文是UTF-8,可以转换为GBK,但不能把GBK存入数据库。

  2. 数据库是GBK,如果转换为UTF-8,使用content=new String(rs.getBytes(2),"GBK")直接将content存入数据库就可为UTF-8。

  八、数据库连接方式使用GBK编码

  1. 数据库里的中文是UTF-8,如果转换为GBK,使用content= new String(rs.getString(2).getBytes(),"UTF-8"),再直接使用update或者insert语句插入到数据库,即存得GBK。如果使用content= new String(rs.getString(2).getBytes(),"GBK")或者content= new String(rs.getString(2).getBytes()),再存入数据库即存得还是UTF-8编码。

  2. 数据库里的中文是GBK,如果转换为UTF-8,使用content= new String(rs.getString(2).getBytes("UTF-8"))或者content= new String(rs.getString(2).getBytes("UTF-8"),"GBK"),再直接使用update或者insert语句插入到数据库,即存得UTF-8。

  3. 如果某个String是GBK,要转换为UTF-8,也是使用content= new String(GBKstr.getBytes("UTF-8"))或者content= new String(GBKstr.getBytes("UTF-8"),"GBK"); 如果某个String是UTF-8,要转换为GBK,应该使用new String(UTFstr.getBytes("GBK"),"UTF-8")。

  九、数据库连接方式使用缺省,即不跟参数

  1. str2=new String(GBKstr.getBytes("UTF-8"),"ISO-8859-1"),可以将数据库里的GBK编码转换为UTF-8。

  2. 读取UTF-8然后存入UTF-8,则用str1=new String(UTFstr.getBytes(),"ISO-8859-1")或者str1=new String(UTFstr.getBytes("GBK"),"ISO-8859-1")。

  3. 不能实现数据库里的UTF-8转换为GBK。

分享到:
评论

相关推荐

    JAVA字符编码:Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

    JAVA字符编码:Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

    关于JAVA字符编码:Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

    关于JAVA字符编码:Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

    乱码 编码方式解决 gbk ISO8859-1 utf8 编码

    乱码 编码方式解决 gbk ISO8859-1 utf8 编码 乱码 编码方式解决 gbk ISO8859-1 utf8 编码

    GBK、UTF-8编码转换工具

    本程序的目的是为了把文件编码格式统一。如果文件内容编码不同,则也不能保正...缺点:比如iso-8859-1的内容转换成utf-8。则可能失败。。 优点:java文件,txt/xml/dat文件。只要都是能识别的内容,即转换成功就更大。

    CodeDetector:检测文件编码,现在支持UTF-8,GBK,UTF-16LE,UTF-16BE,Java

    CodeDetectorDetect File encoding, Now support UTF-8,GBK,UTF-16LE,UTF-16BE, Java检查文件编码,主要针对中文文本。目前支持 UTF-8(BOM或无BOM)、GBK、UTF-16LE、UTF-16BE单个文件或文件夹,支持编码批量转换。...

    Java文件编码转换源码

    通过Java实现文件编码的转换功能,提供了Demo用于测试。 目前仅测试了GB2312 UTF-8之间的相互转换,ISO-8859-1不支持。其余的没有测试

    CharsetUtils.java

    ISO_8859_1("ISO-8859-1","ISO 拉丁字母表 No.1,也叫作 ISO-LATIN-1"), UTF_8("UTF-8","8 位 UCS 转换格式"), UTF_16BE("UTF-16BE","16 位 UCS 转换格式,Big Endian(最低地址存放高位字节)字节顺序"), UTF_...

    (手机电子书k-JAVA)CyberExploere

    (手机电子书)J2ME文件浏览,图片浏览,音乐播放,编辑文本,支持GBK,ISO8859-1,UTF-8,UTF,TEXT,Unicode编码,可以编辑文件,有10种图片效果,有鼠标,支持触屏,打电话,发短信,播放MID,JTS,WAV ,AMR,AWB...

    史上最全的java基础总结大全

    String str3 = new String(buf3,"ISO8859-1");//错误解码 //编码解码4:错误编码正确解码 String str4 = "你好"; byte[] buf4 = str4.getBytes("ISO8859-1");//错误编码 String str4 = new String(buf4,"GBK")...

    EncodingDetect.java自动获取文件的编码.rar

    java自动获取文件的编码,智能识别文件编码,支持本地file及指定url的编码识别,支持多达40余种编码的识别,包括最常见的UTF-8,GBK,GB2312,BIG5,UNICODE,ISO8859_1,ASCII等,FileUtil.java里有对...

    JAVA字符串操作类CTool.java字符转换类.rar

    JAVA字符串操作类CTool.java字符转换类,此类中收集Java编程中WEB开发常用到的一些工具。为避免生成此类的实例,构造...、显示大文本块处理(将字符集转成ISO)、将数据从数据库中取出后转换*、编码转换 从UTF-8到GBK。。

    eclipse文件编码设置、转换原理与实用工具

    批量转换文件的二进制编码(用新的文件编码重写文件),如从gbk到utf-8,免除逐个文件全选、复制、右键、属性、改文本文件编码、粘贴、保存之苦(该转换是根据编码设置文件进行转换的,因此更加安全); c.结合上述...

    有关于当安装maven成功后javaweb会出现几个乱码问题,都会解决

    通常我们所遇到过多UTF-8这是Unicode编码的实现方式,请一定要加以区分。 GB2312字集是简体字集;BIG5字集是台湾繁体字集;GBK字集是简繁字集,包括了GB字集、BIG5字集和一些符号 GB18030是国家制定的一个强制性大字集...

    day019-io笔记和代码.rar

    * charsetName:字符集名 例如 : "GBK"、"UTF-8" 、"ISO-8859-1" * * 不常用 * 3.String(byte[] bytes) 根据默认字符集将字节数组转换为字符串 * 4.String(byte[] bytes, String ...

    encodingchecker:文件编码检查器

    ISO-8859-1 utf-8_withoutBom utf-8_withBom UTF-16BE_withBom UTF-16BE_withoutBom UTF-16LE_withBom UTF-16LE_withoutBom UTF-32BE_withBom UTF-32BE_withoutBom UTF-32LE_withBom UTF-32LE_withoutBom

    java基础—–第一关

    ISO-8859-1 ASCII码的扩展,仍是单字节,能表示256个。 GBK(GB2312) 汉字编码。 UTF-8 最常用的汉字编码。 UTF-16 采用两个字节表示一个字符,具体定义了Unicode字符在计算机中存取方法。 简单介绍内存模型 int与...

    EncodingDetect工具类动态识别文件编码

    支持本地file及指定url的编码识别,支持多达40余种编码的识别,包括最常见的UTF-8,GBK,GB2312,BIG5,UNICODE,ISO8859_1,ASCII等

    基于javatcpsocket通信的拆包和装包源码-chaugod:乔戈德

    ASCII、ISO-8859-1、GB2312、GBK、UTF-8、UTF-16、Unicode FileDescriptor 序列化/反序列化 枚举: name 单例: writeReplace(), readResolve() 安全性: 网络传输 通用性: 跨平台、跨语言 可扩展性: 是否支持自动加入...

    Java中文字符所占的字节数

    Java语言中,中文字符所占的字节数取决于字符的编码方式,一般情况下,采用ISO8859-1编码方式时,一个中文字符与一个英文字符一样只占1个字节;采用GB2312或GBK编码方式时,一个中文字符占2个字节;而采用UTF-8编码...

Global site tag (gtag.js) - Google Analytics