`

GB国家标准代码

阅读更多

国家标准代码

国家标准代码 ,简称国标码 ,是 中华人民共和国 的中文常用 汉字 编码集 ,也为 新加坡 采用。 现在中华人民共和国官方强制使用 GB 18030 标准,但较旧的计算机仍然使用 GB 2312

 

较常见的国家汉字标准代码列表:

GB 2312-80——信息交换用汉字编码字符集基本集(又称 GB 或 GB0)

GB 18030-2005——信息技术中文编码字符集

GB 13000.1-93——信息技术通用多八位编码字符集(UCS)第一部分(相当于 ISO 10646-1:1993 中文版)

GBK——汉字扩展内码规范(GBK并非国家正式标准)

 

由于GB 2312-80只收录了6763个汉字,未能覆盖繁体中文字、部分人名、方言、古汉语等方面出现的罕用字

 

中华人民共和国国家标准总局于2000年推出强制性的GB 18030-2000标准。于2001年8月31日后发布或出厂的产品,必须符合GB 18030-2000的相关要求。这个标准的最新版本是GB 18030-2005,它的2字节部分是强制性的。

GBK

GBK 全名为汉字内码扩展规范 ,英文名Chinese Internal Code Specification。K 即是“扩展”所对应的汉语拼音(KuoZhan11)中“扩”字的声母。GBK 来自中国国家标准代码GB 13000.1-93。

 

1993年,Unicode 1.1版本推出,收录了中国大陆、台湾 、日本及韩国 通用字符集 的汉字,总共有20,902个。

 

中国大陆订定了等同于Unicode 1.1版本的“GB 13000.1-93”“信息技术 通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面”。

 

由于GB 2312-80只收录了6763个汉字,有不少汉字,如部分在GB 2312-80推出以后才简化的汉字(如“啰”),部分人名用字(如中国前总理朱镕基的“镕”字),台湾及香港使用的繁体字,日语及朝鲜语 汉字等,并未有收录在内。中文电脑开发商,于是利用了GB 2312-80未有使用的编码空间,收录了所有出现在Unicode 1.1及GB 13000.1-93之中的汉字,制定了GBK编码。

 

根据西方资料,GBK最初是由微软对GB2312的扩展,也就是CP936字码表 (Code Page 936) 的扩展(原来的CP936和GB 2312-80一模一样),最初出现于Windows 95简体中文版中,由于Windows 产品的流行和在大陆广泛被使用,中华人民共和国国家有关部门将其作为技术规范。严格说,GBK不能算是国家标准,最多算是一个商业标准GB18030 才是真正的国家标准 ,它只是国家技术监督局标准化司、电子工业部科技与质量监督司发布的“技术规范指导性文件”。虽然GBK收录了所有Unicode 1.1及GB 13000.1-93之中的汉字,但是编码方式与Unicode 1.1及GB 13000.1-93不同。仅仅是GB 2312到GB 13000.1-93之间的过渡方案

 

华人民共和国国家质量技术监督局 于2000年3月17日推出了GB 18030-2000标准,以取代GBK 。GB 18030-2000除了保留了全部GBK编码的汉字外,还增加了大约一百个汉字及四位元组编码空间。请参看GB 18030-2000。

 

·         双字节编码,GB2312-80的扩充,在码位上和GB2312-80兼容。

·         范围:8140 ~ FEFE(剔除xx7F)共23940个码位。

·         包含21003个汉字,包含了ISO 10646中的全部中日韩汉字,简、繁体字融于一库。

GB 2312

GB 2312GB 2312-80 是一个简体中文字符集 的中国国家标准,全称为《信息交换用汉字编码字符集·基本集》,又称为GB0 ,由中国国家标准总局 发布,1981年5月1日实施。GB2312编码通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。

 

GB 2312标准共收录6763个汉字 ,其中一级汉字3755个,二级汉字3008个;同时,GB 2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母 在内的682个全角字符。

 

GB 2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。

 

对于人名、古汉语 等方面出现的罕用字,GB 2312不能处理,这导致了后来GBK及GB 18030汉字字符集的出现。

 

每个汉字及符号以两个字节来表示。第一个字节称为“高位字节”,第二个字节称为“低位字节”。


·         双字节编码
·         A1-A9:符号区,包含682个符号
·         B0-F7:汉字区,包含6763个汉字

 

GB 13000

GB 13000 ,中华人民共和国国家标准的国家标准代码之一,全称 GB 13000.1-93《信息技术 通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》 。此标准等同采用国际标准化组织 ISO/IEC 10646.1:1993《信息技术 通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面》

 

GB 13000的字符集包含20,902个汉字。

 

GB 18030

GB 18030 ,全称:国家标准GB 18030-2005《信息技术中文编码字符集》,是中华人民共和国于2000年3月17日发布,是现在最新的内码字集,是GB 18030-2000《信息技术信息交换用汉字编码字符集基本集的扩充》的修订版。与GB 2312-1980完全兼容,与GBK基本兼容,支持GB 13000及Unicode的全部统一汉字,共收录汉字70244个。

GB 18030主要有以下特点:

  • 与 UTF-8 相同,采用多字节编码,每个字可以由1个、2个或4个字节组成
  • 编码空间庞大,最多可定义161万个字符。
  • 支持中国国内少数民族的文字,不需要动用造字区。
  • 向下与 GB2312 编码兼容
  • 支持 GB 13000.1-1993 中的全部中、日、韩( CJK )统一汉字字符和全部 CJK 统一汉字扩展 A 的字符

虽然 GB18030 标准非常强大,但它是一个中国大陆的标准。在编码上,除了和 GB2312 以外,还是不能和世界上其它任何一种字符编码统一。


 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics