`

汉字处理过程

 
阅读更多

汉字系统对每个汉字预先规定输入计算机中的代码,即汉字的外部码(例如拼音输入码)。计算机为了识别汉字,要把汉字的外部码转换成内部码(二进制代码)进行存储和处理。输出时,还将汉字的内部码转换成汉字的字形码。计算机处理汉字的总过程如下:

键盘管理程序 汉字处理程序 外部(输入)码 → 机内码 → 字形(输出)码

(键盘) (计算机存储、传输) (计算机输出汉字)

↑ ↓↑ ↓

汉字信息 交换码(国标码) 汉字信息

↓ ↑

其它系统代码

 

交换码 用于计算机与其他系统或设备之间进行汉字代码信息交换的标准汉字代码,目前最常使用的是国标码1981年的GB2312-80, 7445; 2000的GB18030-2000,27000

特 点

每个汉字(图形符号)用两个字节表示,每个字节只用低7位,即最高位为0的二进制码。

在128种编码表示中,有94种用来表示汉字的编码。此标准的汉字编码表有94行、94列,分别为区号和位号。汉字编码使用的高字节称为区码,低字节称为位码。

汉字分为两级:一级为使用频度高的常用汉字;

二级为次常用的汉字;

 

内部码 也称汉字内码或汉字机内码,是计算机对汉字进行存储、运算、传码的实际代码。

特 点

是由 0和1组成的二进制代码。一个汉字对应一个机内码,即汉字数目=机内码数目;

一般用两个字节表示一个汉字的内码且每个字节最高位为 1。 还有少数三字节、四字节等内部码最多能表示128×128 = 16384 个汉字和图形符号;

机内码目前虽未完全统一,但已趋于标准化。

内部码与国标码的对应关系:内码=国标码+8080

即国标码每个字节最高位为1 → 内部码。


例如:国标码 3B7A → 00111011 01111010 那么,机内码 BBFA→ 10111011 11111010

 

外部码 也叫汉字输入编码,主要是从键盘(语音、手写、光电)输入计算机中的代表汉字的编码

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics