【转】中文编码

shappy1978

浏览: 681252 次
性别:
来自: 广州

最近访客更多访客>>

u012363178

lingzhixue

hsjiang79

bobby318

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Windows 搜索引擎教育资讯互联网

在绝大多数情况下，包括某些专业文章中，字符集和编码都统称为编码，这是因为一个字符集往往对应一种编码。但是在程序中，我们来不得半点马虎，我们应该清楚地知道字符集和编码有什么区别。以 ASP.NET 为例，Response.Charset 和 Response.Output.Encoding（只读）中的 Charset 和 Encoding 有什么区别呢？

Charset 是字符集，Encoding 是编码。

字符集即字符的集合，规定了在这些集合里面有哪些字符，每一个字符都有一个编号（一个整数），但这只是编号不是编码。
编码就规定了一个编号如何与二进制交互。

我们大多数人最先接触到的字符集是 1963 年的 ASCII，其中的每一个字符只需要用一个字节来表示就可以了。但世界上有许多种语言，像亚洲文字，比如中文，常用汉字就几千个，仅用一个字节来表示显然是不够的，假如我们使用两个字节。

那么问题就来了，为什么我们要把两个字节看成是一个汉字的编号呢？为什么我们不把两个字节看成 ASCII 字符集的两个编号呢？为了解决此问题，就得使用编码来标识了。

还有一个问题，编号（整数）1234 在字符集 A 中代表“千”，1234 在字符集 B 中代表“一”，那么 1234 究竟代表什么字呢？这就得明确字符集了。

浏览器可以自动识别使用哪个字符集，一般说来它们使用 HTTP 头部的 Content-Type 标明的字符集，如果没有向 HTTP 头部发送该信息，一般参考使用 HTML 的 head 标签中的 <meta http-equiv="Content-Type" content="text/html; charset=gb2312" />，为什么是参考使用呢？因为现在浏览器都比较聪明，如果发现这里用错了，一般会给予纠正。

我们做网页时，如果指定的 Charset 是 GB2312，那么就不应该在网页中出现繁体字，因为 GB2312 标准只有几千个简体的中文字。如果我们的网页编码是 UTF-8，我们就不要指定字符集是 GB2312，因为虽然 UTF-8 编码对应的 UTF-8 字符集包含了 GB2312 的字符，但同一个字符在两个字符集中的编号不一样。

对于我们中文简体网页，一般来说有两种搭配：

一种是字符集是 GB2312，编码使用 ANSI。占用磁盘空间最少，网络传输效率最高。
一种是字符集是 UTF-8，编码使用 UTF-8。虽然占用磁盘空间大，传输效率略低，但因为兼容面广，在应用 Ajax 以及包含多种语言文字时使用方便。鉴于此原因，现在许多网页开发工具都默认使用 UTF-8 来保存网页，比如 Visual Web Developer。

中文的几个编码　GB2312、GBK、GB18030、GB13000

GB2312

GB2312(1980年)一共收录了 7445 个字符，包括 6763 个汉字和 682 个其它符号。汉字区的内码范围高字节从 B0-F7，低字节从 A1-FE，占用的码位是72*94=6768。其中有 5 个空位是 D7FA-D7FE。

在 Windows 中的代码页是 CP936。

GBK

GBK 最初是由微软对 GB2312 的扩展，也就是 CP936 字码表 (Code Page 936)的扩展（原来的 CP936 和 GB2312-80 一模一样），最初出现于 Windows 95 简体中文版中，由于 Windows 产品的流行和在大陆广泛被使用，中华人民共和国国家有关部门将其作为技术规范。注意GBK并非国家正式标准，只是国家技术监督局标准化司、电子工业部科技与质量监督司发布的“技术规范指导性文件”。虽然 GBK 收录了所有 Unicode 1.1 及 GB 13000.1-93 之中的汉字，但是编码方式与 Unicode 1.1 及 GB 13000.1-93 不同。仅仅是 GB 2312 到 GB 13000.1-93 之间的过渡方案。GBK 收录了 21886 个符号，它分为汉字区和图形符号区。汉字区包括 21003 个字符。

GBK 作为对 GB2312 的扩展，在现在的 Windows 系统中仍然使用代码页 CP936 表示，但是同样的 936 的代码页跟一开始的 936 的代码页只支持 GB2312 编码不同，现在的 936 代码页支持 GBK 的编码，GBK 同时也向下兼容GB2312 编码。

GB18030

2000 年的 GB18030 取代了 GBK1.0 的正式国家标准。该标准收录了 27484 个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。现在的PC平台必须支持 GB18030 ，对嵌入式产品暂不作要求。所以手机、MP3 一般只支持 GB2312。

GB18030 在 Windows 中的代码页是 CP54936。

GB13000

GB13000 等同于国际标准的《通用多八位编码字符集 (UCS)》 ISO10646.1，就是等同于 Unicode 的标准，代码页等等的都使用UTF的一套标准。

从 ASCII、GB2312、GBK 到 GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为 0。按照程序员的称呼，GB2312、GBK 到 GB18030 都属于双字节字符集 (DBCS)。

中文字符编码简介 GB2312、GBK、GB18030、BIG5

现在的 PC 平台必须支持 GB18030，手机、MP3 一般只支持 GB2312。

GB2312

GB2312 码是中华人民共和国国家汉字信息交换用编码，全称《信息交换用汉字编码字符集——基本集》，由国家标准总局发布，1981年5月1日实施，通行于大陆。新加坡等地也使用此编码。

GB2312 收录简化汉字及符号、字母、日文假名等共 7445 个图形字符，其中汉字占 6763 个。GB2312 规定“对任意一个图形字符都采用两个字节表示，每个字节均采用七位编码表示”，习惯上称第一个字节为“高字节”，第二个字节为“低字节”。

GB2312 将代码表分为 94 个区，对应第一字节；每个区 94 个位，对应第二字节，两个字节的值分别为区号值和位号值加 32（2OH）,因此也称为区位码。01-09 区为符号、数字区，16-87 区为汉字区，10-15 区、88-94 区是有待进一步标准化的空白区。GB2312 将收录的汉字分成两级：第一级是常用汉字计 3755 个，置于 16-55 区，按汉语拼音字母/笔形顺序排列；第二级汉字是次常用汉字计 3008 个，置于 56-87 区，按部首/笔画顺序排列。故而GB2312最多能表示 6763 个汉字。

GB2312 的编码范围为 2121H-777EH，与 ASCII 有重叠，通行方法是将 GB 码两个字节的最高位置 1 以示区别。

GBK

GB2312 仅收汉字 6763 个，这大大少于现有汉字，随着时间推移及汉字文化的不断延伸推广，有些原来很少用的字，现在变成了常用字，例如：朱镕基的“镕”字，未收入 GB2312-80，现在大陆的报业出刊只得使用（金+容）、（金容）、（左金右容）等来表示，形式不一而同，这使得表示、存储、输入、处理都非常不方便，对于搜索引擎等软件的构造来说也不是好消息，而且这种表示没有统一标准。从我们对人民日报 98 年数据的处理过程中，得出这样的经验：回填外字最困难的就是如何得到这种表示方法的集合。

为了解决这些问题，以及配合 UNICODE 的实施，全国信息技术化技术委员会于1995年12月1日《汉字内码扩展规范》。GBK 向下与 GB2312 完全兼容，向上支持 ISO 10646 国际标准，在前者向后者过渡过程中起到的承上启下的作用。GBK 亦采用双字节表示，总体编码范围为 8140-FEFE 之间，首字节在 81-FE 之间，尾字节在 40-FE 之间，剔除 XX7F 一条线。

GBK 共收入 21886 个汉字和图形符号，包括：

* GB2312 中的全部汉字、非汉字符号。
* BIG5 中的全部汉字。
* 与 ISO 10646 相应的国家标准 GB13000 中的其它 CJK 汉字，以上合计 20902 个汉字。
* 其它汉字、部首、符号，共计 984 个。

微软公司自 Windows 95 简体中文版开始支持GBK代码，但目前的多数搜索引擎都不能很好地支持 GBK 汉字。

GBK 编码区分三部分：

* 汉字区，包括：

GBK/2：OXBOA1-F7FE, 收录 GB2312 汉字 6763 个，按原序排列；
GBK/3：OX8140-AOFE，收录 CJK 汉字 6080 个；
GBK/4：OXAA40-FEAO，收录 CJK 汉字和增补的汉字 8160 个。

* 图形符号区，包括：

GBK/1：OXA1A1-A9FE，除 GB2312 的符号外，还增补了其它符号
GBK/5：OXA840-A9AO，扩除非汉字区。

* 用户自定义区：

即 GBK 区域中的空白区，用户可以自己定义字符。

GB18030

GB18030 是最新的汉字编码字符集国家标准, 向下兼容 GBK 和 GB2312 标准。 GB18030 编码是一二四字节变长编码。一字节部分从 0x0~0x7F 与 ASCII 编码兼容。二字节部分, 首字节从 0x81~0xFE, 尾字节从 0x40~0x7E 以及 0x80~0xFE, 与 GBK 标准基本兼容。四字节部分, 第一字节从 0x81~0xFE, 第二字节从 0x30~0x39, 第三和第四字节的范围和前两个字节分别相同。四字节部分覆盖了从 0x0080 开始, 除去二字节部分已经覆盖的所有 Unicode 3.1 码位。也就是说, GB18030 编码在码位空间上做到了与 Unicode 标准一一对应,这一点与 UTF-8 编码类似。

目前最新的 glibc 2.2.x 系列已经全面支持了 GB18030 Locale 和 GB18030 与 UCS-4 之间的编码转换, 也就是说在系统层上 Linux 已经可以支持 GB18030 标准了。下面问题的关键就是怎样让 XFree86 窗口系统也支持 GB18030 标准。

BIG5

BIG5 是通行于台湾、香港地区的一个繁体字编码方案。虽然存在一些瑕疵，但广泛应用于电脑行业，尤其是互联网中，从而成为一种事实上的行业标准。

1983年10月，台湾国家科学委员会、教育部国语推行委员会、中央标准局、行政院共同制定了《通用汉字标准交换码》，后经修订于1992年5月公布，更名为《中文标准交换码》，BIG5 是台湾资讯工业策进会根据以上标准制定的编码方案。

BIG5 码是双字节编码方案，其中第一个字节的值在 OXAO-OXFE 之间，第二个字节在 OX40-OX7E 和 OXA1-OXFE 之间。

BIG5 收录 13461 个汉字和符号，包括：

* 符号 408 个，编码位置 A140-A3BE
* 常用字 5401 个，编码位置 A440-C67E，包括台湾教育部颁布的《常用国字标准字体表》的全部汉字 4808 个，台湾教科书常用字 587 个，异体字 6 个。
* 次常用字 7652 个，编码位置 C940-F9D5，包括台湾教育部颁布的《次常用国字标准字体表》的全部汉字 6341 个，《罕用国字标准字体表》中使用频率较高的字 1311 个。

分享到：