`
tiankefeng0520
  • 浏览: 143105 次
  • 性别: Icon_minigender_1
  • 来自: 长春
社区版块
存档分类
最新评论

ASCII、ANSI、Unicode及UTF-8编码

阅读更多

ASCII和Ansi编码

字符内码:指的是用来代表字符的内码.读者在输入和存储文档时都要使用内码,

内码分为:

单字节内码 -- Single-Byte character sets (SBCS),可以支持256个字符编码.
双字节内码 -- Double-Byte character sets)(DBCS),可以支持65000个字符编码.
前者即为ASCII编码,后者对应ANSI.
至于简体中文编码GB2312,实际上它是ANSI的一个代码页936

Unicode


 ANSI有很多代码页,使用不同代码页的内码无法在其他代码也正常显示,这就是为什么日文版/繁体中文版游戏无法在简体中文平台直接显示的原因.
    Unicode也是一种字符编码方法,不过它是由国际组织设计,可以容纳全世界所有语言文字的编码方案.它是一种2字节编码,能够提供65536个字符,这个数字是不够表示所有的字符的(汉语就有55000多字符),所以,通过一个代理对的机制来实现附加的917476个字符表示,以达到所有字符都具有唯一编码.

Unicode和BigEndianUnicode 区别


    这两者只是存储顺序不同,如"A"的unicode编码为65 00 ,BigEndianUnicode编码为00 65

UTF-8


    这是为传输而设计的编码,其系列还有UTF-7和UTF-16
    其中UTF-16和Unicode编码大致一样, UTF-8就是以8位为单元对Unicode进行编码。从Unicode到UTF-8的编码方式如下:
     Unicode编码(16进制)      UTF-8 字节流(二进制)
     0000 - 007F         0xxxxxxx
     0080 - 07FF         110xxxxx 10xxxxxx
     0800 - FFFF         1110xxxx 10xxxxxx 10xxxxxx

  例如“汉”字的Unicode编码是6C49。6C49在0800-FFFF之间,所以肯定要用3字节模板了:1110xxxx 10xxxxxx 10xxxxxx。将6C49写成二进制是:0110110001 001001,用这个比特流依次代替模板中的x,得到:11100110 10110001 10001001,即E6 B1 89。

分享到:
评论

相关推荐

    各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解

    各种编码UNICODE、UTF-8、ANSI、ASCII、GB2312、GBK详解

    PB的utf-8转换

    PB的utf-8转换,包括加码解码等等 aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa

    关于编码 ascii(ansi), gb-2312, unicode, utf8

    关于编码 ascii(ansi), gb-2312, unicode, utf8

    编码批量转换工具

    比如utf8转gbk,gb2312转utf8,ansi转utf8,utf8 unicode 转换,utf8转换gb2312,utf16、utf32、utf8编码转换,gbk转换utf8,utf8 ascii转换。 2 强大正则表达式支持字符编码转换软件 是唯一同时支持用正则表达式匹配和...

    Ruby 与编码

    Ruby 与编码 常见问题 * 乱码的问题 * Ruby 中 Unable to convert "\x89" from ASCII-8BIT to UTF8 *Incompatible character encodings: ASCII- 8BIT and UTF-8

    Qt中的字符编码转换:UTF8、Unicode、GBK、ASCII、16进制字符、16进制数值

    Qt字符转换,串口接收数据转为中文显示可用。Qt中的字符编码转换:UTF8、Unicode、GBK、ASCII、16进制字符、16进制数值

    文本文件编码探查.zip

    用于探查文本类文件的编码格式,包括任何以文本方式保存的文件,都可以探查出来。...6)UTF-8BOM'这是文件中带有BOM前导标志的UTF8编码 软件运行时,可以将目录粘贴到第一栏中,最下边一栏显示文件的编码格式

    超详细的字符编码教程

    2.4.3. Unicode字符编码所对应的存储和交换标准:UTF-8, UTF-16, UTF-32 2.4.3.1. UTF-8 2.4.3.2. Unicode与UTF-8之间的转换 2.4.3.2.1. 关于UTF-8的BOM:“EF BB BF” 2.5. 代码页Code Page 2.5.1. 什么是代码页...

    编码转换类1.2版模块源码

    本模块支持GBK、UNICODE、UTF-8三种编码之间的互相转换,不依赖系统Api,通过查表和编码算法直接得出转码结果,支持多线程调用。编码小科普。GBK编码:1-2个字节,包含GB2312、ASCII、BIG5,注意:同一个繁体字在GBK...

    计算机编码与Unicode(PPT课件)

    这个PPT课件介绍了Unicode和字符编码相关的知识。丰富生动的图片和讲解使您能快速地掌握Unicode编码相关的知识,是不可多得的Unicode相关的PPT教程。... Unicode存储编码——UTF 10. 字节顺序与BOM

    C++ gbk转unicode、ansi转unicode,字符串查找、切割、转十六进制、转二进制、转义,随机数等数据处理类源码

    1数据转换:ANSI等编码、UTF8编码、UTF16编码(实际为Unicode编码)、TCHAR互转,可以先获取转换出的数据在存储时所需的大小 2字符串查找:正向查找、逆向查找、指定偏移查找 3字符串切割:正向分割、逆向分割、指定...

    批量字符编码转换工具 20070709

    比如utf8转gbk,gb2312转utf8,ansi转utf8,utf8 unicode 转换,utf8转换gb2312,utf16、utf32、utf8编码转换,gbk转换utf8,utf8 ascii转换。 2 强大正则表达式支持字符编码转换软件 是唯一同时支持用正则表达式匹配和...

    类似文本文件编码处理工具

    类似文本文件编码处理工具,其实现了UTF-8、UTF-7、Unicode、ASCII、GB2312(简体中文)、BIG5 (繁体中文)之间的相互转换,以及文件编码UTF-8、UTF-7、Unicode、ASCII、GB2312(简体中文)、BIG5 (繁体中文)、ANSI检测

    文本编码批量转换(需.net 2.0)

    将一个目录的所有指定后缀的文本文件批量转换到指定目录下。 支持ANSI(含GBK,GB2312,ASCII),Unicode,Unicode big endian,UTF-8编码互转,自动判断源文本文件的编码方式。

    易语言-编码转换类1.2版模块

    本模块支持GBK、UNICODE、UTF-8三种编码之间的互相转换,不依赖系统Api,通过查表和编码算法直接得出转码结果,支持多线程调用。 编码小科普 GBK编码:1-2个字节,包含GB2312、ASCII、BIG5,注意:同一个繁体字在GBK...

    【黑莓】豆豆阅读器v0.8.0

     UTF-8  ISO-8859-1  US-ASCII  GB2313 (即简体中文Windows系统中的默认ANSI格式)  支持文件编码格式的自动检测(不需要用户设置)  带文件系统浏览功能(方便找到本机及SD卡上的电子书)  带阅读历史...

    [洫蜘蛛] 编码转换模块,不依赖系统Api-易语言

    本模块支持GBK、UNICODE、UTF-8三种编码之间的互相转换,不依赖系统Api,通过查表和编码算法直接得出转码结果,支持多线程调用。 ===========================================编码小科普==========================...

    豆豆阅读器v0.9.23(触摸版)

    -v0.8.0- 支持多种TXT格式(UNICODE, UNICODE-BE, UTF-8, ISO-8859-1, US-ASCII, GB2312) -v0.8.0- 文件系统浏览功能(方便找到本机及SD卡上的电子书) -v0.8.0- 阅读历史记录功能 -v0.8.0- 精确跳转功能 -v0.8.0- ...

    豆豆阅读器v0.9.23(非触摸版)

    -v0.8.0- 支持多种TXT格式(UNICODE, UNICODE-BE, UTF-8, ISO-8859-1, US-ASCII, GB2312) -v0.8.0- 文件系统浏览功能(方便找到本机及SD卡上的电子书) -v0.8.0- 阅读历史记录功能 -v0.8.0- 精确跳转功能 -v0.8.0- ...

    精易模块V9.1.5 发布【2021.04.01】-易语言

    6、优化“编码_utf8到gb2312”、“编码_gb2312到utf8”、“编码_ASCII到Unicode”、“编码_Unicode到Ansi”、“编码_Ansi到Unicode”、“编码_Utf8到Unicode”、“编码_Unicode到Utf8”、“编码_Ansi到Utf8”、...

Global site tag (gtag.js) - Google Analytics