对UTF8编码的初步认识

andylin02

浏览: 1999223 次
性别:
来自: 北京

最近访客更多访客>>

u012363178

czmmiao

zlalalal

gch_ling

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

一亩三分地

在网络中有很多地方都有采用UTF8编码，由于要编写与邮件服务端有关的程序，而邮件服务端有些地方用到了UTF8编码，所以对它有了初步的认识！

它其实和Unicode是同类，就是在编码方式上不同！
首先UTF8编码后的大小是不一定，不像Unicode编码后的大小是一样的！

我们先来看Unicode的编码：一个英文字母 “a” 和　一个汉字 “好”，编码后都是占用的空间大小是一样的，都是两个字节！

而UTF8编码：一个英文字母“a” 和　一个汉字 “好”，编码后占用的空间大小就不样了，前者是一个字节，后者是三个字节！

现在就让我们来看看UTF8编码的原理吧：
　　因为一个字母还有一些键盘上的符号加起来只用二进制七位就可以表示出来，而一个字节就是八位，所以UTF8就用一个字节来表式字母和一些键盘上的符号。然而当我们拿到被编码后的一个字节后怎么知道它的组成？它有可能是英文字母的一个字节，也有可能是汉字的三个字节中的一个字节！所以，UTF8是有标志位的！

　　当要表示的内容是　7位　的时候就用一个字节：0******* 　第一个0为标志位，剩下的空间正好可以表示ASCII　0－127　的内容。

　　当要表示的内容在　8　到　11　位的时候就用两个字节：110***** 10****** 　第一个字节的110和第二个字节的10为标志位。

　　当要表示的内容在　12　到　16　位的时候就用三个字节：1110***** 10****** 10****** 　　　和上面一样，第一个字节的1110和第二、三个字节的10都是标志位，剩下的空间正好可以表示汉字。

　　以此类推：
四个字节：11110**** 10****** 10****** 10******
　　五个字节：111110*** 10****** 10****** 10****** 10******
　　六个字节：1111110** 10****** 10****** 10****** 10****** 10******
　　.............................................
..............................................

明白了没有？
编码的方法是从低位到高位

现在就让我们来看看实例吧！

黄色为标志位
其它着色为了显示其，编码后的位置

Unicode十六进制	Unicode二进制	UTF8二进制	UTF8十六进制	UTF8字节数
B	00001011	00001010	B	1
9D	00010011101	11000010 10011101	C2 9D	2
A89E	10101000 10011110	11101010 10100010 10011110	EA A2 9E	3

分享到：

C语言中标准输入流、标准输出流、标准错误 ... | 通过python获取目录的大小

2011-06-07 15:10
浏览 1662
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论