`

关于unicode编码的研究

 
阅读更多

以前写过一篇贴子是写中文在unicode中的编码范围 unicode中文范围,但写的不是很详细,今天再次研究了下unicode,并给出详细的unicode取值范围。

 

本次研究的unicode对象是unicode 5.2.0版本。现在最新的是6.0版

对于这次研究的unicode把编码分为以下几个平面(英文中是plane,可以认为就是不同的区位)

Unicode可以逻辑分为17平面(Plane),每个平面拥有65536( = 216)个代码点,虽然目前只有少数平面被使用。

平面0 (0000–FFFF): 基本多文种平面(Basic Multilingual Plane, BMP).
平面1 (10000–1FFFF): 多文种补充平面(Supplementary Multilingual Plane, SMP).
平面2 (20000–2FFFF): 表意文字补充平面(Supplementary Ideographic Plane, SIP).
平面3 (30000–3FFFF): 表意文字第三平面(Tertiary Ideographic Plane, TIP).
平面4 to 13 (40000–DFFFF)尚未使用
平面14 (E0000–EFFFF): 特别用途补充平面(Supplementary Special-purpose Plane, SSP)
平面15 (F0000–FFFFF)保留作为私人使用区(Private Use Area, PUA)
平面16 (100000–10FFFF),保留作为私人使用区(Private Use Area, PUA)

 

最有用的当然就是BMP平面0了编码从U+0000至U+FFFF。那里包含了几乎全部的常用字符。
unicode基本平面区的编码区间含义


为鉴于Unicode原有的16位空间不足以应用,于是从Unicode 3.1版本开始,设立了16个扩展字码空间,称为辅助平面,
使 Unicode 的可使用空间由6万多字增至约100万字。辅助平面字符要用上4字节来存储。
unicode中的几大区间

 

最后小结下:

1、现在网上大多数用于判断中文字符的是 U+4E00..U+9FA5 这个范围是只是“中日韩统一表意文字”这个区间,但这不是全部,如果要全部包含,则还要他们的扩展集、部首、象形字、注间字母等等;

2E80-A4CF 加上 F900-FAFF 加上 FE30-FE4F

其中 

2E80-A4CF 

包含了中日朝部首补充、康熙部首、表意文字描述符、中日朝符号和标点、日文平假名、日文片假名、注音字母、谚文兼容字母、象形字注释标志、注音字母扩展、中日朝笔画、日文片假名语音扩展、带圈中日朝字母和月份、中日朝兼容、中日朝统一表意文字扩展A、易经六十四卦符号、中日韩统一表意文字、彝文音节、彝文字根

 F900-FAFF

中日朝兼容表意文字

FE30-FE4F

中日朝兼容形式

所以,一般用4E00-9FA5已经可以,如果要更广,则用2E80-A4CF  ||   F900-FAFF || FE30-FE4F

 

2、全角ASCII、全角中英文标点、半宽片假名、半宽平假名、半宽韩文字母:FF00-FFEF

3、不要太关心简繁中文的区别,如果要明确非要简体中文可参考unicode中简体中文编码

分享到:
评论

相关推荐

    GB18030编码研究以及GBK,GB2312,GB18030与Unicode的映射,乱码解决

    GB18030编码研究以及GBK,GB2312,GB18030与Unicode的映射,乱码解决 计算机,毫无疑问是一部机器,在最初我们接触计算机时或者接收计算机教育时,我们就知道:计算机能识别的只有010101的二进制码。人与计算机交互早期...

    Unicode和ANSI对照表

    就是Unicode和ANSI码的对照文件。 四个文本,两个程序。 文本Unicode是Unicode表 Unicode2ANSI是Unicode文本另存为ANSI unicodeandANSI.txt是对照表的Unicode版本 unicodeandANSI2ANSI.txt是对照表的ANSI版本 有些...

    Unicode Book 码表对应手册

    标准Unicode 码表对应手册,非常的全面,而且可以跟该字体,配带点阵图,现在与大家分享,从事字体研究者非常有用。免安装、免注册软件,欢迎大家进行评论。

    ios-打印日志正常显示Unicode为中文.zip

    但是,苹果对于我们的NSDictionary、NSSet、NSArray等值有中文时,打印出来的是Unicode编码,人类无法直接读懂,因此,笔者研究研究如何将打印出来的日志保持原有的格式化且能够将Unicode编码打印出来是正常人类可读...

    完整汉字笔画笔顺Unicode和GB码数据库(20902汉字)

    完整汉字笔画笔顺Unicode和GB码数据库(20902汉字) 用于各项研究

    UTF-8、gb3212、unicode 编码对照表.docx

    最全的UTF-8、gb3212、unicode 编码对照表,所有中文字符的三种字符集编码都在里面,是研究乱码问题的好帮手。

    GBK码表 GB18030码表 汉字编码

    GB18030是正式国家标准,是GBK或GB2312的超集。...这里是一个Excle版本的码表,罗列出码元及对应的GBK编码和Unicode编码,是研究编码的好工具. 部分字体可能显示不出来,请尝试更换字体,或者安装包含字符较多的字体再尝试

    论文研究-基于语义的多文种编码方案SemaCode.pdf

    SemaCode是一种面向信息处理、可扩展的多文种编码方案,它在码位层SemaCode以字符为单位编码,并在编码中嵌入文种信息;在词码位层提出了以语义为轴心,以词为单位的编码理念;在属性层引入了一种对编码进行描述的...

    关于你不想知道的所有Python3 unicode特性

    我花了两周时间研究Python3,我需要发泄我的失望。在这些责骂中,仍然有有用的信息,因为它教我们如何来处理Python3。如果没有被我烦到,就读一读吧。 这次吐槽的内容会不一样。不会关联到WSGI或者HTTP及与其相关的...

    ASP版hmac和md5加密函数,支持中文,带unicode和utf8转码

    这个标准版是指其它程序都在采用的unicode编码方案,其实ASP简版才是我们最多使用的,但它并不通用。 调用方法:HmacMd5(text,key)-加密内容支持中文,但key最好用非中文的。 md5(text)-简版,ASP_MD5(text)-标准...

    unicode-lookup:网络上最好的unicode查找工具!

    最近,我在研究过程中经常使用unicode查找工具,但发现其中有些工具缺乏,错误或缓慢。 事实证明,使用Web Worker和庞大的文本文件使整个应用程序静态和快速变得非常容易。 就是这样 快速,简单,静态的unicode查找...

    FPC1011指纹传感器的stm32驱动程序+基于python的将unicode码转为图像

    stm32驱动程序使用uart协议驱动FPC1011指纹传感器,将信号传给python程序,生成指纹图像,可用于FPC1011指纹传感器驱动研究,这方面代码资料较少。

    论文研究-汉字编码及其应用的研究 .pdf

    汉字编码及其应用的研究,李罡,孙济洲,本文针对在软件国际化与本地化过程中,处理中文时常遇到的问题的成因进行了分析,介绍了常见的字符集编码及在具体系统中实现,并

    使用动态和依赖于密钥的 16x16 S-Box 的 Unicode 文本安全-研究论文

    这篇研究论文介绍了依赖和键依赖的替代盒(S-box)。 动态且依赖于密钥的 S-box 以高安全性包装数据。 提议的 S-box 适用于包括 UTF 32 版本的 UNICODE 文本。 它使用 PYTHON 语言在 UNICODE 文本上进行了测试。 ...

    SQLServer CLR实现Unicode URL 加解密,MD5不同编码加密

    因工作时常在SQLSERVER进行http接口操作,涉及编码的转换问题和中文MD5的加密问题,在数据库中根本无法实现,经研究可以借助CLR功能实现一下函数。 附件中提供了源码、开启CLR脚本及直接注册一下函数的脚本,无c#...

    Flask 让jsonify返回的json串支持中文显示的方法

    用flask时遇到了返回字符串支持中文显示的问题,在web端显示的是utf-8的编码,而不是中文,如下图。 虽然不影响接口的读取,但是可读性太差,于是研究了一下怎么直接显示成中文。最后找到了解决方案如下,在配置中...

    Python字符串的encode与decode研究心得乱码问题解决方法

    字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码。  decode的作用是将...

    正则表达式之 Unicode 匹配特殊字符

    最初我只是想记录下正则表达式用unicode的方式来匹配特殊字符,写着写着发现 v8 对 u 修饰符的不支持,又转而去研究怎么转换字符串到utf-16的格式,在研究怎么转换的过程中发现ES5的正则对 unicode 编码单元 > 0x...

    字符编码 大全

    字节和编码 - Characters, Bytes And Encoding 14 Unicode:宽字节字符集 23 ANSI and Unicode strings 26 UTF8与ANSI等编码间如何转换 27 ANSI C++特征总结 31 字符集编码详细研究 37 <br>

    otdo-to-unicode:OTDO音译为Unicode

    一,东京外国语大学亚非语言文化研究所,2007(相关部分和)。 它用于在对文本进行编码。 该代码免费基于OTDO网站上使用的。 该代码的作者明确地将其置于公共领域。 与原始版本相比,更改为: 转义unicode序列...

Global site tag (gtag.js) - Google Analytics