1.ANSI
字符内码(charcter code)指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码,内码分为
单字节内码 -- Single-Byte character sets (SBCS),可以支持256个字符编码.
双字节内码 -- Double-Byte character sets)(DBCS),可以支持65000个字符编码.
前者即为ASCII编码,后者对应ANSI.
若是ASCII码表中的字符,仍使用单字节编码,若是扩展字符,使用双字节编码(最高位标示)
2. Unicode
Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案.
Unicode字符集可以简写为UCS(Unicode Character Set)。早期的Unicode标准有UCS-2、UCS-4的说法。UCS-2用两个字节编码,UCS-4用4个字节编码。UCS-4根据最高位为0的最高字节分成2^7=128个group。每个group再根据次高字节分为256个平面(plane)。每个平面根据第3个字节分为256行 (row),每行有256个码位(cell)。group 0的平面0被称作BMP(Basic Multilingual Plane)。将UCS-4的BMP去掉前面的两个零字节就得到了UCS-2。
3. UTF-8
这是为传输而设计的编码,其系列还有UTF-7和UTF-16
其中UTF-16和Unicode编码大致一样, UTF-8就是以8位为单元对Unicode进行编码。从Unicode到UTF-8的编码方式如下:
Unicode编码(16进制) UTF-8 字节流(二进制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx
例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110 110001 001001, 用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。
可以参考
http://blog.csdn.net/chaijunkun/archive/2009/10/11/4654397.aspx
- 大小: 4.3 KB
分享到:
相关推荐
require "lc" print(lc.help());... u2w(utf8 to unicode) w2a(unicode to ansi) w2u(unicode to utf8) u2a(utf8 to ansi) a2u(ansi to utf8) bstr(bytes of str) help(show this) wunoman@qq.com 2012/03/06
utf-8、ANSI、Unicode相互转化c++实现 std::string ConverANSI2UTF8(const std::string & str); std::wstring ConverANSI2Unicode(const std::string str); std::wstring ConverUTF82Unicode(const std::string str)...
ANSI --> UTF-8 Unicode --> ANSI Unicode --> UTF-8 UTF-8 --> ANSI UTF-8 --> Unicode UTF-8 --> Unicode big endian ansi转别的,不检验BOM,一律作为ansi编码进行转换 unicode转别的,首先检验BOM,不合格不...
unicode ansi utf8 hex 转换工具
php 字符编码转换类,支持ANSI、Unicode、Unicode big endian、UTF-8、UTF-8+Bom 互相转换。
从其他地方搜集的别人的作品,我觉得写的通俗,实用。与大家分享下。
使用C语言,实现UTF8、Unicode、ANSI字符集的互转,用C语言实现头文件和源文件,引入工程可以直接使用。如果在MFC项目中使用该代码,需要更改配置,压缩包中有详细说明。
网上有很多ANSI UNICODE UTF8互转的代码,方法也比较多。总结了几个,测试能用。
提供了ANSI,UNICODE,UTF8三种不同编码方式之间的互相转换;使用方便。
unicode ansi utf8 hex 转换工具(源码)用了都说好,请好评。
C语言ANSI Unicode UTF8 字符间互转函数
各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解
vb6,读取UTF8,Unicode,ANSI 任何TXT 和其他文件
Txt文件编码批量转换器用于批量转换txt文本文档的编码格式。通常,我们电脑里的txt文件都是ASNI编码,当放到手机或MP3里时,打开看到的往往...目前,它支持ASNI、UTF-8、Unicode和Unicode big endian等编码的相互转换。
utf-8、ANSI、unicodeutf-8、ANSI、unicodeutf-8、ANSI、unicode
简单的替换指定文件里的所以字符串,支持unicode,utf8,ansi等文件类型,可以方便的作为工具供脚本使用
Ansi、Unicode、UTF8字符串之间的转换,wprintf
易语言 API_Utf8-Ansi-Unicode转码源码
查看文本文件的编码方式 UTF8 ANSI UNICODE 在qt下编译通过