汉字系统对每个汉字预先规定输入计算机中的代码,即汉字的外部码(例如拼音输入码)。计算机为了识别汉字,要把汉字的外部码转换成内部码(二进制代码)进行存储和处理。输出时,还将汉字的内部码转换成汉字的字形码。计算机处理汉字的总过程如下:
键盘管理程序 汉字处理程序 外部(输入)码 → 机内码 → 字形(输出)码
(键盘) (计算机存储、传输) (计算机输出汉字)
↑ ↓↑ ↓
汉字信息 交换码(国标码) 汉字信息
↓ ↑
其它系统代码
交换码 用于计算机与其他系统或设备之间进行汉字代码信息交换的标准汉字代码,目前最常使用的是国标码1981年的GB2312-80, 7445; 2000的GB18030-2000,27000
特 点
每个汉字(图形符号)用两个字节表示,每个字节只用低7位,即最高位为0的二进制码。
在128种编码表示中,有94种用来表示汉字的编码。此标准的汉字编码表有94行、94列,分别为区号和位号。汉字编码使用的高字节称为区码,低字节称为位码。
汉字分为两级:一级为使用频度高的常用汉字;
二级为次常用的汉字;
内部码 也称汉字内码或汉字机内码,是计算机对汉字进行存储、运算、传码的实际代码。
特 点
是由 0和1组成的二进制代码。一个汉字对应一个机内码,即汉字数目=机内码数目;
一般用两个字节表示一个汉字的内码且每个字节最高位为 1。 还有少数三字节、四字节等内部码最多能表示128×128 = 16384 个汉字和图形符号;
机内码目前虽未完全统一,但已趋于标准化。
内部码与国标码的对应关系:内码=国标码+8080
即国标码每个字节最高位为1 → 内部码。
例如:国标码 3B7A → 00111011 01111010 那么,机内码 BBFA→ 10111011 11111010
外部码 也叫汉字输入编码,主要是从键盘(语音、手写、光电)输入计算机中的代表汉字的编码。
分享到:
相关推荐
汉字字频统计 1. 给出前100个汉字高频字的频率统计结果; 2. 分别给出前1、20、100、600、2000、3000、6000汉字的字频总和;...6. 提交实验报告,给出详细实验过程和结果;提交源代码和可执行程序。
深入剖析JSP和Servlet对中文的处理过程,网上的一篇文章而已,PDF格式慢慢看,适合打印。
自己翻译的热处理流程,水平有限,不对之处请见谅
实现了中文信息处理的分词过程 点击exe文件直接运行
5.1图像降级/恢复过程的模型334 5.2噪声模型335 5.2.1噪声的空间和频率特性335 5.2.2一些重要的噪声概率密度函数336 5.2.3周期性噪声340 5.2.4噪声参数估算341 5.3仅存在噪声的情况下的恢复 - 空间过滤344 5.3.1平均...
信息处理——数据流程图、程序流程图、系统流程图、程序网络图和系统资源图的文件编制符号及约定
GAMMA GAMMA 软件包括了整个雷达处理过程的全功能模块: 软件包括了整个雷达处理过程的全功能模块: 从 SARSAR 原始信号处理到 SLCSLCSLC成像、单视 成像、单视 /多视处理、基于雷达信号滤波正射纠 多视处理、基于...
前言几乎所有脑电初学者都是从 EEGLAB 开始接触脑电预处理过程的,EEGLAB 浅显直观的 GUI 界面再或是基于 MATLAB 的代码操作影响了一代脑电人
本文来自简书,本文将带领大家熟悉和回顾一个完整的自然语言处理过程,从分析对象和分析内容两个不同的维度来进行阐述NLP,希望对您的学习有所帮助。2016年全球瞩目的围棋大战中,人类以失败告终,更是激起了各种...
统计自然语言处理基础(中文版 高清带书签) 《统计自然语言处理基础:国外计算机科学教材系列》是一本全面系统地介绍统计自然语言处理技术的专著,被国内外许多所著名大学选为计算语言学相关课程的教材。《统计自然...
电信设备-通信过程中汉字的处理方法和装置.zip
PhotoScan处理无人机航拍照片基本流程(中文版),PhotoScan(中文版)
Python自然语言处理中文版pdf(高清文字可复制) 版本说明: 2009 年六月:第一版 Nutshell Handbook, the Nutshell Handbook 标志, 以及O’Reilly 标志是O’Reilly Me dia, Inc.的注册商标。《PYTHON 自然语言处理...
在实际应用过程中,可以将待分词文本进行倒排处理,从而生成逆序文本,然后再根据逆序词典,对逆序文本用正向最大匹配算法进行处理。 (2)在中文中,由于偏正结构较多,所以从后向前进行匹配会提高精确度,因此,...
摘要要要要::研究全过程动画自动生成系统中的自然语言处理模块,设计一种面向手机中文短信的信息抽取系统。根据中文语言处理的特殊性,抽取短信中可动画化的信息,并进行
全书的论述过程由浅入深,从数学基础到精确的理论算法,从简单的词法分析到复杂的语法分析,适合不同水平的读者群的需求。同时,《统计自然语言处理基础:国外计算机科学教材系列》将理论与实践紧密联系在一起,在...
语义处理是人脑的高级认知功能。 在没有意识的情况下,是否可以完成这一过程已引起了激烈的争论。 连续闪光抑制(CFS)是创建... 这些结果支持了这样的观点,即在没有CFS创建的意识的情况下缺少汉字处理的语义信息。
对应于上述汉字处理过程中的输⼊、内部处理及输出这3个主要环节,每⼀个汉字的编码都包括输⼊码、交换码、内部码 和字形码。在计算机的汉字信息处理系统中,处理汉字时要进⾏如下的代码转换:输⼊码 交换码 内部码 ...
图像处理方面的实用性基本没什么差别,GIMP图片编辑器具有良好的可扩展性,它支持带插件参数的高级脚本接口,对每件工作无论是最简单的任务,还是最复杂的图像处理过程,都可以很容易地用脚本来描述,如果大家对PS的...
盘点种Python网络爬虫过程中的中文乱码的处理方法.docx