`

汉字编码及相关问题

阅读更多

汉字编码及相关问题

在计算机中字符通常并不是保存为图像,每个字符都是使用一个编码来表示的,而每个字符究竟使用哪个编码代表,要取决于使用哪个字符集(charset)。
  在最初的时候,Internet上只有一种字符集——ANSI的ASCII字符集,它使用7 bits来表示一个字符,总共表示128个字符,其中包括了英文字母、数字、标点符号等常用字符。之后,又进行扩展,使用8 bits表示一个字符,可以表示256个字符,主要在原来的7 bits字符集的基础上加入了一些特殊符号例如制表符。
  后来,由于各国语言的加入,ASCII已经不能满足信息交流的需要,因此,为了能够表示其它国家的文字,各国在ASCII的基础上制定了自己的字符集,这些从ANSI标准派生的字符集被习惯的统称为ANSI字符集,它们正式的名称应该是MBCS(Multi-Byte Chactacter System,即多字节字符系统)。这些派生字符集的特点是以ASCII 127 bits为基础,兼容ASCII 127,他们使用大于128的编码作为一个Leading Byte,紧跟在Leading Byte后的第二(甚至第三)个字符与Leading Byte一起作为实际的编码。这样的字符集有很多,我们常见的GB-2312就是其中之一。
  例如在GB-2312字符集中,“连通”的编码为C1 AC CD A8,其中C1和CD就是Leading Byte。前127个编码为标准ASCII保留,例如“0”的编码是30H(30H表示十六进制的30)。软件在读取时,如果看到30H,知道它小于128就是标准ASCII,表示“0”,看到C1大于128就知道它后面有一个另外的编码,因此C1 AC一同构成一个整个的编码,在GB-2312字符集中表示“连”。
  由于每种语言都制定了自己的字符集,导致最后存在的各种字符集实在太多,在国际交流中要经常转换字符集非常不便。因此,提出了Unicode字符集,它固定使用16 bits(两个字节、一个字)来表示一个字符,共可以表示65536个字符。将世界上几乎所有语言的常用字符收录其中,方便了信息交流。标准的Unicode称为UTF-16。后来为了双字节的Unicode能够在现存的处理单字节的系统上正确传输,出现了UTF-8,使用类似MBCS的方式对Unicode进行编码。注意UTF-8是编码,它属于Unicode字符集。Unicode字符集有多种编码形式,而ASCII只有一种,大多数MBCS(包括GB-2312)也只有一种。
  例如“连通”两个字的Unicode标准编码UTF-16 (big endian)为:DE 8F 1A 90
而其UTF-8编码为:E8 BF 9E E9 80 9A
  最后,当一个软件打开一个文本时,它要做的第一件事是决定这个文本究竟是使用哪种字符集的哪种编码保存的。软件有三种途径来决定文本的字符集和编码:
  最标准的途径是检测文本最开头的几个字节,如下表:

开头字节 Charset/encoding
EF BB BF    UTF-8
FE FF     UTF-16/UCS-2, little endian
FF FE     UTF-16/UCS-2, big endian
FF FE 00 00  UTF-32/UCS-4, little endian.
00 00 FE FF  UTF-32/UCS-4, big-endian.

  例如插入标记后,连通”两个字的UTF-16 (big endian)和UTF-8码分别为:
FF FE DE 8F 1A 90
EF BB BF E8 BF 9E E9 80 9A
  但是MBCS文本没有这些位于开头的字符集标记,更不幸的是,一些早期的和一些设计不良的软件在保存Unicode文本时不插入这些位于开头的字符集标记。因此,软件不能依赖于这种途径。这时,软件可以采取一种比较安全的方式来决定字符集及其编码,那就是弹出一个对话框来请示用户,例如将那个“连通”文件拖到MS Word中,Word就会弹出一个对话框。
  如果软件不想麻烦用户,或者它不方便向用户请示,那它只能采取自己“猜”的方法,软件可以根据整个文本的特征来猜测它可能属于哪个charset,这就很可能不准了。使用记事本打开那个“连通”文件就属于这种情况。
  我们可以证明这一点:在记事本中键入“连通”后,选择“Save As”,会看到最后一个下拉框中显示有“ANSI”,这时保存。当再当打开“连通”文件出现乱码后,再点击“File”->“Save As”,会看到最后一个下拉框中显示有“UTF-8”,这说明记事本认为当前打开的这个文本是一个UTF-8编码的文本。而我们刚才保存时是用ANSI字符集保存的。这说明,记事本猜测了“连通”文件的字符集,认为它更像一个UTF-8编码文本。这是因为“连通”两个字的GB-2312编码看起来更像UTF-8编码导致的,这是一个巧合,不是所有文字都这样。可以使用记事本的打开功能,在打开“连通”文件时在最后一个下拉框中选择ANSI,就能正常显示了。反过来,如果之前保存时保存为UTF-8编码,则直接打开也不会出现问题。
  如果将“连通”文件放入MS Word中,Word也会认为它是一个UTF-8编码的文件,但它不能确定,因此会弹出一个对话框询问用户,这时选择“简体中文(GB2312)”,就能正常打开了。记事本在这一点上做得比较简化罢了,这与这个程序的定位是一致的。
  我们再次感谢高工给我们带来的解释,让我们对这一现象有了比较清楚的认识。

 

汉字编码测试

以下是对windows(本例在windows XP下)环境下关于汉字编码的测试,原理可以参见汉字编码问题

  打开windows附带的计事本,输入“中文zZ”四字符,保存为“中文.txt”后再打开,不会发现任何问题。用UltraEdit(本例为10.0版本,以下同)查看其十六进字编码为:D6 D0 CE C4 7A 5A (前四字节为两中文编码,后两个字节为英文编码) 编码状态栏显示:DOS

  把用记事本打开的“中文.txt”的文件选择“另存为”,下拉框里由“ansi”改为选择“unicode”,存为“中文-unicode.txt”,再用UltraEdit打开,查看其十六进制编码为:FF FE 2D 4E 87 65 7A 00 5A 00 (前两个字节为文件编码标志,此后四字节为中文unicode编码,最后四个字节为两英文字符。),编码状态显示:U-DOS

  把用记事本打开的“中文.txt“文件选择“另存为”,下拉框里由“ansi”改为选择“unicode-big-endian”,存为“中文-unicode-big-endian.txt”,用记事本打开能正常显示,用UltraEdit打开出现乱码,查看其十六进制编码为:FE FF 4E 2D 65 87 00 7A 00 5A (怎么跟unicode一比是倒了个个儿)。编码状态显示为: DOS (没把它当Unicode ,怪不得显示不正常)。

  把用记事本打开的“中文.txt”文件选择“另存为”,下拉框里由“ansi”改为选择“UTF-8”,存为“中文-utf-8.txt”,再用UltraEdit打开,查看其十六进制编码为:FF FE FF FE 2D 4E 86 65 7A 00 5A 00 (前四个字节为文件前导字符,中间四个为两汉字,最后四个为两字母。),编码状态显示为:U8-DOS

  新建一个.txt文件,用windows附带的计事本打开,输入“联通zZ”二字,保存为“联通.txt”后再打开,出现乱码(用另存为可以看到记事本误认为编码为UTF-8)。用UltraEdit查看其十六进制编码为:FF FE 6A 00 68 03 7A 00 5A 00(编码状态为U8-DOS)。

  打开记事本,输入“联通zZ”,选择另存为“联通utf-8.txt”,按默认“UTF-8”保存,用UltraEdit打开,查看其十六进制编码为:FF FE FF FE 54 80 1A 90 7A 00 5A 00 (前四个字节为文件前导,中间四字节为两汉字,最后四字节为两英文件字符)。编码状态显示为:U8-DOS

  打开记事本,输入“联通zZ”,选择另存为“联通unicode.txt”,按“unicode”保存,再用UltraEdit打开,查看其十六进制编为:FF FE 54 80 1A 90 7A 00 5A 00 (前面两字节为前导符,其后四字节为两汉字,后面四字节为两英文)。编码状态为:U-DOS

  因此,这里有个怪现象(BUG),在Windows下不管是用记事本,或是UltraEdit,或是,Dreamweaver 如果只是以“联通”打头的文档,保存后再打开就不能正常显示了,也就是说“联通”(当然还有其它的汉字如“连通”)两字打头的文档都不能正常的保存为ANSI格式。

 

 

http://www.d2school.com/bcyl/bhcpp/newls/ls05.htm#5.2

分享到:
评论

相关推荐

    汉字编码问题编码问题

    GB2312编码 Unicode编码 Big5 编码规则,等相关

    浅谈Python2之汉字编码为unicode的问题(即类似\xc3\xa4)

    Python2中编码相关的问题很是让人蛋疼,特别是中文字符。 比如本文所述的中文网页GBK编码的诡异问题。 现象 例如:盲录職氓聭聵,其实网页里面正常的应该是会员 分析 接着上面的例子,会员这部分乱码通过repr()函数...

    全国计算机应用基础知识:汉字、字符编码.pdf

    全国计算机应⽤基础知识:汉字、字符编码 (1)计算机中的信息单位 计算机中对信息表⽰的单位有位、字、字长及字节等,它们是⽤来表⽰信息量的⼤⼩的基本概念。 位:计算机中数据存储的最⼩单位是⼀个⼆进制位,简称...

    EXCEL汉字转拼音首字母

    2、第一种转换方法是通过判断汉字内码的编号范围来确定拼音首字母的范围,因为从编码D7F9往后的汉字都不是按拼音排序的,所以这方法会有些汉字的拼音首字母无法识别,但是基本上常用字都能识别。 3、第二种转换...

    完美解决JS中汉字显示乱码问题(已解决)

    如题,刚才看了几篇大家的讨论,忽然也想起要将自己最近研究的问题贴出来,凡是和JS中乱码相关的问题都发到这里把,大家一起研究。:) 场景一:write写出来的内容是utf-8格式的,如果保存的write数据中有不是utf-8...

    ASP反编码最新版

    希望有相关问题的朋友能写信给我,谢谢! asp 反编码软件现在已经是公开发布的第三个版本了,前2个版本是用vb编写的,所以速度和功能都并不理想;本来用vb做了个最新版本的,但是种种原因没有继续完善下去;其实...

    VB(Visual Basic) UTF8 字符编码

    VB(Visual Basic) UTF8 字符...这里我们做了一小方法、直接先将我们要发送的中文字符转换为UTF8字符集的编码然后在发送Post出去、这样就可以在其他系统里面直接获取、不用去担心乱码问题 GBK相同原理、本人不习惯gbk

    Linux下Java程序中文乱码问题研究.pdf

    2. 使用GBK编码方式:对于一些特殊的汉字,使用GBK编码方式可以解决中文乱码问题。 3. 使用字符集转换:可以使用字符集转换工具将GBK编码方式转换为UTF-8编码方式。 4. 使用Java语言的中文支持类库:Java语言提供了...

    ASP实现URL编码

    不过有时候我们也需要将经过这种编码的字符串进行解码,但asp并没有提供相关的函数,这给我们处理问题带来了一定的麻烦。其实我们只要知道了编码规则后,就可以用asp代码来实现我们自己的URlDecode函数了。 具体...

    基于Java实现的汉字与拼音互转的工具库源码+项目说明(带简单的分词功能).zip

    但是,双字节编码的已有汉字已经非常够用了,被排除在外的几乎都是十分生僻的汉字了。 后续完善: 1. [x] 分词算法支持的句子转拼音。 2. [ ] 更多分词算法。 2. [ ] 根据拼音序列,智能匹配,转句子。 5. [ ] 可...

    JAVA文件压缩与解压缩实践的设计

    UU/UUE:汉字编码方式,它们原本是Unix系统中使用的一种编码方式,后来被改写到DOS中,我们在传送中文邮件时只须事先使用该方式进行编码,此后就能顺利通过只能处理7位编码的邮件服务器,从而解决了汉字的传输问题。...

    简单解决Windows中MySQL的中文乱码与服务启动问题

    当我第一次接触mysql,首先让我难受的是mysql的乱码问题,百度上也有许多有关的解决方案,不过作为亲身受害者,我想很有必要贴出我的心声: 1.关于mysql的字符集处理 mysql在标识数据时采取二进制字符和非二进制字符...

    西安理工大学 微机原理课件

    本章着重介绍了计算机中数据的表示方法,重点讲述了二、八、十、十六进制数的相关概念及各类进制数之间相互转换的方法,无符号数和带符号数的机器内部表示以及字符编码和汉字编码等内容。 在学习完本章内容之后,...

    精易模块[源码] V5.15

    2、改名“文件_搜索1”改为“文件_搜索_深度”并修正备注及深度问题,感谢易友【@小爬虫】反馈。 3、改善“时间_取现行时间戳”优化代码,提高执行效率,感谢易友【@小爬虫】反馈。 4、改善“文本_逐字分割”改善...

    c语言实现电子时钟

    本课程设计的主要目的是通过C语言实现电子时钟,掌握利用C语言相关函数开发电子时钟的基本原理,并提高运用C语言解决实际问题的能力。该设计主要涉及时间结构体、数组、绘图等方面的知识。 一、设计课题:电子时钟...

    易语言编程系统PDF完整版(4/4)

    ★全可视化编程,支持所见即所得程序界面设计和程序流程编码。 ★中文语句快速录入。提供多种内嵌专用输入法,彻底解决中文语句输入速度慢的问题。 ★代码即文档。自动规范强制代码格式转换,任何人编写的任何程序...

    深度学习领域研究热点与前沿分析——基于CiteSpace的信息可视化分析.pdf

    深度学习的相关概念包括自动编码器、限制波尔兹曼机、深信度网络等。深度学习的应用前景广阔,已经逐步应用于人脸识别、手写汉字识别、自然语言处理等领域。 本文对深度学习领域的研究热点进行了分析,结果表明,...

    精易官方免费模块v3.60版

    3. 改善 “文本_是否为汉字”增加正则方式判断 感谢 7141330054 的提醒 精易模块 V3.47 what’s new:(20131207) 1、增加“系统_关联右键菜单带图标”命令 2、增加“类_内存配置项”命令,感谢会员 微凉 提供的...

    iOS读取txt文件出现中文乱码的解决方法

    一、情景描述:  后台给一个txt文件,编码是utf-8,在Mac电脑Xcode开发...txt文件是从window电脑上创建,有可能和环境有关,第二,编码问题。 四、解决方案: 第一步:在Mac上新建txt文件,将从window上copy过来txt

    Ubuntu 系统中文显示乱码的问题解决

    最近在工作中发现在Ubuntu 系统中出现中文乱码,通过查找相关的资料发现可能是因为系统没有配置中文字符编码的原因,下面这篇文章就来详细介绍了Ubuntu系统中文显示乱码的问题解决方法,需要的朋友可以参考借鉴,...

Global site tag (gtag.js) - Google Analytics