`
sunxboy
  • 浏览: 2864955 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

字符编码的转换

阅读更多
String news = new String(testString.getBytes("ISO8859_1"), "GBK");
对于地址栏汉字乱码可用:
java.net.URLDecoder.decode("汉字")  解决
分享到:
评论
1 楼 sunxboy 2008-04-09  
------------------------转----------------------------------
Jsp中文乱码小议 
                          -------郭鹏 
Jsp是一个很热门的话题,但让大多数人都头痛的是JSP页面中的乱码问题,笔者身有体会;曾为了解决中文乱码问题郁闷了好几天,试了很多方法都不行。最后在JSP专业人士的帮助下,终于解决。之后笔者曾对此做了一些小的研究。 
  首先我们先了解一下问题的原因。一般情况在在每个JSP页的头部都有这样一条语句: 
<%   page   contentType="text/html;   charset=gb2312"   %>这条语句决定了此页面使用GB2312编码形式,而在数据库中一般用的是iso-8859-1字符集存储数据.   而Java程序在处理字符时默认采用统一的ISO-8859-1字符集(体现Java国际化思想),所以在添加数据时,默认的字符集编码是iso- 8859-1,而页面采用的是GB2312,所以就出现乱码问题。为解决此问题应在存储的时候把GB2312换转成iso-8859-1。有此时候在读出时也会出现乱码,那么只需反过来就可以了,把iso-8859-1转换成GB2312。 
  具体实例归纳了以下几点,也许会对大家有一些帮助。 
  1、 在建立JSP页面时应该注意在jsp页面的头部加入一下代码 
  <%   page   contentType="text/html;   charset=gb2312"   %> 
此方法是解决JSP页面显示时的乱码。 
  2、 有时还需在HTML代码中的<head></head>中加入这句 
  <meta   http-equiv="Content-Type"   content="text/html;   charset=gb2312"> 
  3、 在bean中用的是iso-8859-1编码,在jsp中一般用GB2312编码,处理此类乱码问题如下 
  String   str=new   String(strName.getBytes(“iso-8859-1”),”GB2312”); 
  具体用到此方法的地方为,当提交表单到bean(bean的功能是存储数据到数据库)表单提交后,数据库中存入的数据确变成了????,因此在调用 bean之前应对编码进行转换,方法:String   str=new   String(request.getParameter().getBytes(“iso-8859-1”),”GB2312”); 
  这样,存入数据库的数据库的数据就可见了。 
  4、 对于页面间的参数传递也可以用这个方法来处理乱码问题: 
        public   String   getStr(String   str) 
        { 
                try 
        { 
              String   temp_p=str; 
      byte[]   temp_t=temp_p.getBytes("ISO8859-1"); 
      String   temp=new   String(temp_t); 
      return   temp; 
        } 
        catch(Exception   e) 
        {} 
        return   "null"; 
  } 
  5、 在表单定义时加上这个属性有时也可以解决表单提交过程中出现的乱码 
  <form   enctype="multipart/form-data"></form> 
  6、提交英文字符能正确显示,如果提交中文时就会出现乱码。原因:浏览器默认使用UTF-8编码方式来发送请求,而UTF-8和GB2312编码方式表示字符时不一样,这样就出现了不能识别字符。解决办法:通过request.setCharacterEncoding("gb2312")对请求进行统一编码,就实现了中文的正常显示。

----------------------------转------------------------------------
JAVA字符编码   
    
  一、概要 
在JAVA应用程序特别是基于WEB的程序中,经常遇到字符的编码问题。为了防止出现乱码,首先需要了解JAVA是如何处理字符的,这样就可以有目的地在输入/输出环节中增加必要的转码。其次,由于各种服务器有不同的处理方式,还需要多做试验,确保使用中不出现乱码。 
  二、基本概念 
  2.1   JAVA中字符的表达 
JAVA   中有char、byte、String这几个概念。char   指的是一个UNICODE字符,为16位的整数。byte   是字节,字符串在网络传输或存储前需要转换为byte数组。在从网络接收或从存储设备读取后需要将byte数组转换成String。String是字符串,可以看成是由char组成的数组。String   和   char   为内存形式,byte是网络传输或存储的序列化形式。 
  举例: 
  英 
  String   ying   =   “英”; 
  char   ying   =   ying.charAt(0); 
  String   yingHex   =   Integer.toHexString(ying); 
  82   F1   
  byte   yingGBBytes   =   ying.getBytes(“GBK”); 
  GB编码的字节数值 
  D3   A2   
  2.2   编码方式的简介 
  String序列化成byte数组或反序列化时需要选择正确的编码方式。如果编码方式不正确,就会得到一些0x3F的值。常用的字符编码方式有ISO8859_1、GB2312、GBK、UTF-8/UTF-16/UTF-32。 
  ISO8859_1用来编码拉丁文,它由单字节(0-255)组成。 
  GB2312、GBK用来编码简体中文,它有单字节和双字节混合组成。最高位为1的字节和下一个字节构成一个汉字,最高位为0的字节是ASCII码。 
  UTF-8/UTF-16/UTF-32是国际标准UNICODE的编码方式。   用得最多的是UTF-8,主要是因为它在对拉丁文编码时节约空间。 
  UNICODE值   UTF-8编码 
  U-00000000   -   U-0000007F:   0xxxxxxx 
  U-00000080   -   U-000007FF:   110xxxxx   10xxxxxx   
  U-00000800   -   U-0000FFFF:   1110xxxx   10xxxxxx   10xxxxxx   
  U-00010000   -   U-001FFFFF:   11110xxx   10xxxxxx   10xxxxxx   10xxxxxx   
  U-00200000   -   U-03FFFFFF:   111110xx   10xxxxxx   10xxxxxx   10xxxxxx   10xxxxxx   
  U-04000000   -   U-7FFFFFFF:   1111110x   10xxxxxx   10xxxxxx   10xxxxxx   10xxxxxx   10xxxxxx   
  三、J2SE中相关的函数 
  String   str   =”英”; 
  //取得GB2312编码的字节 
  byte[]   bytesGB2312   =   str.getBytes(“GB2312”);   
  //取得平台缺省编码的字节(solaris为ISO8859_1,windows为GB2312) 
  byte[]   bytesDefault   =   str.getBytes(); 
  //用指定的编码将字节转换成字符串 
  String   newStrGB   =   new   String(bytesGB2312,   “GB2312”); 
  
  //用平台缺省的编码将字节转换成字符串(solaris为ISO8859_1,windows为GB2312) 
  String   newStrDefault   =   new   String(bytesDefault); 
  //用指定的编码从字节流里面读取字符 
  InputStream   in   =   xxx; 
  InputStreamReader   reader   =   InputStreamReader(   in,   “GB2312”); 
  char   aChar   =   reader.read(); 
  四、JSP、数据库的编码 
  4.1   JSP中的编码 
  (1)   静态声明: 
  CHARSET有两个作用: 
  JSP文件的编码方式:在读取JSP文件、生成JAVA类时,源JSP文件中汉字的编码 
  JSP输出流的编码方式:在执行JSP时,往response流里面写入数据的编码方式 
  (2)   动态改变:在往response流里面写数据前可以调用response.setContentType(),设定正确的编码类型。 
  (3)   在TOMCAT中,由Request.getParameter()   得到的参数,编码方式都是ISO8859_1。所以如果在浏览器输入框内输入一个汉字“英”,在服务器端就得到一个ISO8859_1编码的(0x00,0xD3,0x00,0xA2)。所以通常在接收参数时转码: 
  String   wrongStr   =   response.getParameter(“name”); 
  String   correctStr   =   new   String(wrongStr.getBytes(“ISO8859_1”),”GB2312”); 
  在最新的SERVLET规范里面,也可以在获取参数之前执行如下代码: 
  request.setCharacterEncoding(“GB2312”); 
  4.2   数据库的编码 
  (1)   数据库使用UTF-16 
  如果String中是UNICODE字符,写入读出时不需要转码 
  (2)   数据库使用ISO8859_1 
  如果String中是UNICODE字符,写入读出时需要转码 
  写入:String   newStr   =   new   String(oldStr.getByte(“GB2312”),   “ISO8859_1”); 
  读出:String   newStr   =   new   String(oldStr.getByte(“ISO8859_1”),”GB2312”); 
  五、源文件的编码 
  5.1   资源文件 
  资源文件的编码方式和编辑平台相关。在WINDOWS平台下编写的资源文件,以GB2312方式编码。在编译时需要转码,以确保在各个平台上的正确性: 
  native2ascii   –encoding   GB2312   source.properties 
  这样从资源文件中读出的就是正确的UNICODE字符串。 
  5.2   源文件 
  源文件的编码方式和编辑平台相关。在WINDOWS平台下开发的源文件,以GB2312方式编码。在编译的时候,需要指定源文件的编码方式: 
  javac   –encoding   GB2312 
  JAVA编译后生成的字节文件的编码为UTF-8。 
  
  ①最新版TOMCAT4.1.18支持request.setCharacterEncoding(String   enc) 
  ②资源文件转码成company.name=\u82f1\u65af\u514b 
  ③如果数据库使用utf-16则不需要这部分转码 
  ④页面上应有 
  转码ⅰ: 
  String   s   =   new   String 
  (request.getParameter(“name”).getBytes(“ISO8859_1”),”GB2312”); 
  转码ⅱ: 
  String   s   =   new   String(name.getBytes(“GB2312”),”ISO8859_1”); 
  转码ⅲ: 
  String   s   =   new   String(name.getBytes(“ISO8859_1”),”   GB2312”); 
  
    
  
    ========================================================= 
  
  JAVA内部究竟是用的什么字符编码呢?这个问题我也找了很久,后来在THINK   IN   JAVA   3rd的12章里看到一个例子出现了UTF-16BE,难道是它?   
            byte[]   utf_16be   =   name.getBytes("utf-16be"); 
  
            printbyte(utf_16be); 
  
  结果出来了:58   02     length   =   2 
  哈哈,I   got   it!不多不少两个字节,内容也一样。果然是它。同时我在里面也看到,UNICODE的编码还有一个LE,这里的BE,LE我想应该是bigendian和littleendian吧。 
  
    ========================================================== 
  
  import   java.io.*; 
            public   class   TestCodeIO   { 
                        public   static   void   main(String[]   args)   throws   Exception{ 
                                    InputStreamReader   isr   =   new   InputStreamReader(System.in,"iso8859-1"); 
                                                //Create   an   InputStreamReader   that   uses   the   given   charset   decoder 
                                    BufferedReader   br   =   new   BufferedReader   (isr); 
                                    String   strLine   =   br.readLine(); 
                                    br.close(); 
                                    isr.close(); 
                                    System.out.println(strLine); 
                                    System.out.println(new   String   (strLine.getBytes(),"iso8859-1"));//错误改法 
                                                //Encodes   this   String   (strLine)   into   a   sequence   of   bytes   using   the   platform's   
                                                //default   charset(gb2312)   then   constructs   a   new   String   by   decoding   the   
                                              //specified   array   of   bytes   using   the   specified   charset   (iso8859-1) 
                                              //because   this   String   (strLine)   uses   the   charset   decoder   "iso8859-1",so   it   can 
                                              //only   be   encoded   by   "iso8859-1",cann't   be   encoded   by   the   platform's   default 
                                              //charset   "gb2312",so   this   line   is   wrong. 
                                  System.out.println(new   String   (strLine.getBytes("iso8859-1")));//正确改法 
                                            //Encodes   this   String   (strLine)   into   a   sequence   of   bytes   using   the   named   
                                            //charset   (iso8859-1),then   constructs   a   new   String   by   decoding   the   
                                            //specified   array   of   bytes   using   the   platform's   default   charset   (gb2312). 
                                            //This   line   is   right. 
                }   
  } 
  
  上面的英文注释已经说得很清楚了,这里我还是解释一下吧: 
  
  首先是错误的改法     System.out.println(new   String   (strLine.getBytes(),"iso8859-1")); 
  这句代码是将strLine中的字符串用系统默认的编码方式(这里是gb2312) 
  转换为字节序列,然后用指定的编码方式(这里是iso8859-1)构造一个新的 
  String对象,并打印到屏幕上。 
  错误在哪里呢? 
  
  请注意这一段代码     
  InputStreamReader   isr   =   new   InputStreamReader(System.in,"iso8859-1"); 
  BufferedReader   br   =   new   BufferedReader   (isr); 
  String   strLine   =   br.readLine(); 
  这里strLine存储的内容是用指定的编码方式(iso8859-1)存储的,而转换成字节码 
  的时候(这句代码strLine.getBytes())却使用了系统默认的gb2312编码,所以当然就 
  输出乱码了!然后用gb2312编码的字节序列构建新的String对象的时候又使用了 
  iso8859-1编码,所以输出的乱码和System.out.println(strLine)有所不同。 
  
  至于正确的改法就不用详细说明了吧,首先将strLine用iso8859-1编码方式转换成字节 
  序列,然后用系统默认的编码方式(gb2312)构建新的String对象,然后打印输出。  

相关推荐

    字符编码过滤器 字符编码转换 post字符转换

    本文将深入探讨"字符编码过滤器"、"J2EE字符编码"、"字符编码转换"以及"POST字符转换"这些关键知识点,并结合提供的文件"encoding-filter.jar"和"使用方法.txt"来解释它们的应用。 首先,字符编码是计算机存储和...

    工具-字符编码转换

    在IT领域,字符编码转换是一项基础且重要的任务,特别是在处理多语言或跨平台的数据时。本文将基于“工具-字符编码转换”的主题,深入探讨字符编码的概念、常见编码格式、字符编码转换工具以及如何进行实际操作。 ...

    批量字符编码转换工具 20070709

    "批量字符编码转换工具"是绿色软件,单文件免安装,请放心试用。 批量字符编码转换工具可以在gbk,gb23123,unicode,utf8,ansi之间进行汉字编码转换。 批量字符编码转换工具的特色: 1 支持格式众多的字符串编码转换器 ...

    易语言字符编码转换

    在处理字符串和文本数据时,字符编码转换是一个常见的需求,因为不同的系统和应用可能使用不同的字符编码标准来表示文本。本资源提供了易语言字符编码转换的源码,帮助开发者理解和实现这一功能。 字符编码是用来...

    字符编码转换器(Encoding Tool)EncodingTool

    《字符编码转换器(Encoding Tool)——深入理解与应用》 字符编码是计算机处理文本的基础,不同的编码方式决定了如何存储和显示各种语言的字符。在信息化社会中,由于全球化的需求,我们常常需要面对不同编码格式...

    字符编码转换器.rar

    "字符编码转换器"是一款实用工具,能够帮助用户在这些编码格式之间轻松转换,解决因编码不匹配导致的乱码问题。 ASCII编码是最基础的字符编码,只包含了128个最基本的英文字符。然而,当涉及到其他语言,如中文、...

    asp中有关字符编码转换的几个函数.

    ### ASP中字符编码转换的关键函数解析 #### 一、引言 在Web开发过程中,特别是使用ASP(Active Server Pages)这种较早期的技术栈时,字符编码的问题常常会成为一个难点。尤其是在处理中文等非英文字符时,不同的...

    字符编码转换,支持任意编码

    在这个主题中,我们将深入探讨“字符编码转换”这一重要概念,以及如何支持包括GBK、UNICODE(UTF-16)、UTF-8以及GB18030等在内的多种编码。 首先,我们来了解字符编码的基本概念。字符编码是一种将字符与数字对应...

    字符编码查看器(字符编码转换)v1.4.2最新绿色免费版

    字符编码查看器是一款可以帮助你轻松快速的查看字符的ASCII代码的字符编码转换器,也可以反着查询,输入字符,可以获取对应的ASCII代码(十进制或十六进制)。 软件特色 可以查看字符串的ANSI和utf-8的编码的一个小...

    全能字符编码转换工具

    《全能字符编码转换工具》是一款全面且强大的编码转换软件,专为解决各种字符编码之间的转换问题而设计。在信息技术领域,字符编码是至关重要的组成部分,它决定了计算机如何存储和显示文本。这款工具支持多种编码...

    Java中的字符集编码入门(五)Java代码中的字符编码转换Part1.pdf

    Java中的字符编码转换是编程实践中一个至关重要的概念,尤其是在处理多语言环境和跨平台交互时。Java通过统一采用UTF-16编码格式在JVM内部处理字符,简化了字符操作的复杂性。UTF-16是一种变长的Unicode编码,它可以...

    字符编码转换器

    字符编码转换器。支持GB2312、UNICODE、UTF-8、BIG5、以及GB1803编码的相互转换!

    字符编码转换器(C#)

    "字符编码转换器(C#)"是一个程序,它允许用户在不同的字符编码系统之间进行转换,包括ANSI和Unicode,以及简体中文和繁体中文的转换。下面我们将深入探讨这些编码系统以及如何在C#中实现它们的转换。 首先,ANSI...

    字符编码转换iconv

    字符编码转换是计算机科学中的一个重要概念,涉及到数据的存储、传输和显示。在处理不同语言或平台时,正确地进行编码转换是确保信息准确无误的关键。`iconv` 是一个广泛使用的命令行工具和库,它允许在不同的字符...

    字符编码转换处理工具

    "字符编码转换处理工具"是一款实用的软件,专为处理汉字和字母在不同编码体系之间的转换问题而设计,它支持十六进制、二进制以及ANSI码等多种编码形式。 首先,我们要理解什么是字符编码。字符编码是一种规则,它将...

    C语言字符编码转换UNICODE、GBK、UTF-8互相转换

    在C语言中,进行字符编码转换通常涉及到内存操作和位操作,因为C语言没有内置的字符串类或者编码转换函数。以下是一些基本步骤: 1. **读取原始编码**:首先,你需要读取源文件或字符串,确定其当前的编码格式。这...

    不同字符编码转换

    这里我们将深入探讨标题和描述中提到的一些主要字符编码格式:UTF-8、UTF-7、ASCII、Unicode以及GB2312,同时还会涉及到大五码(Big5)以及它们之间的转换。 1. ASCII编码:ASCII(美国标准信息交换代码)是最基础...

    CharTools 字符编码转换工具(1.0.1.0)

    《CharTools字符编码转换工具详解》 在信息技术领域,字符编码是至关重要的组成部分,它决定了计算机如何理解和显示各种字符。CharTools(版本1.0.1.0)是一款专为字符编码转换设计的实用工具,提供了多种编码形式...

Global site tag (gtag.js) - Google Analytics