`

utf-8编码规则

阅读更多
http://blog.csdn.net/whuchlee/archive/2009/04/03/4041944.aspx
引用

UTF,是Unicode Text Format的缩写,意为Unicode文本格式。根据Unicode的编码可以生成utf-8编码,转换规则如下:
  (1)首先将Unicode的编码转换成二进制形式,这样一个字符对应一个16位的二进制数。
 (2)如果Unicode的16位二进制编码的头9位都是0,则用一个字节表示该字符,这个字节的首位是“0”,剩下的7位与原编码中的后7位相同。例如“\u0034”(0000 0000 0011 0100),用“34” (0011 0100)表示(与原Unicode编码是相同的,只是去掉了原编码的首字节);
 (3)如果Unicode的16位二进制编码的头5位都是0,则用两个字节表示该字符,首字节以“110”开头,该字节后面的5位与源编码中头5个零后面的5位相同;第二个字节以“10”开头,后面的六位则与源编码中剩下的6位相同。例如“\u025d”(0000 0010 0101 1101),转化后为“c99d”(1100 1001 1001 1101);
 (4)如果Unicode的16位二进制编码不符合上述两个规则,则用三个字节表示该字符。第一个字节以“1110”开头,后四位与源编码的头4位相同;第二个字节以“10”开头,后六位与原编码接下来的6位相同;第三个字节也以“10”开头,后六位与原编码剩下的6位相同,这样原来16位的编码就转换成三个字节24位的编码了;例如“\u9da7”(1001 1101 1010 0111),转化为“e9b6a7”(1110 1001 1011 0110 1010 0111)。






http://blog.csdn.net/sandyen/archive/2006/08/23/1108168.aspx
分享到:
评论

相关推荐

    自动检测汉字GB18030编码与UTF-8编码

    想到如下特征来识别汉字: 1. 如果第1位是0就不需要判断的,一定是ASCII字符。... 如果第1位是1开头的,第2位是0开头的,一定是GB编码。 3. 如果第1位是非1110开头的,则一定是GB编码。 4. 多做几个汉字判断。

    GBK与UTF-8之间的转换

    正确的转换方法是,首先将GBK编码的字符串转换成UTF-8编码的字符串,然后将UTF-8编码的字符串转换成十六进制的UTF-8编码。下面是一个使用Java实现GBK与UTF-8之间的转换的示例代码: ```java public class ...

    Linux 下 设置mysql数据库为utf8编码的方法

    该语句将创建一个名为 confluence 的数据库,使用 UTF-8 编码和 utf8_bin 排序规则。 二、设置服务器字符集 除了创建数据库外,还需要设置服务器字符集为 utf8。这可以通过在 my.ini 文件(Windows)或 my.cnf ...

    utf-8编码引起js输出中文乱码的解决办法

    编码规则是utf-8,如网页头中的: <meta http-equiv=”Content-Type” content=”text/html; charset=UTF-8″ /> 那么js文件中如果有中文输出就会出现乱码,解决此个问题有两个方法: 1、在引用javascript输出...

    PHP正确解析UTF-8字符串技巧应用

    在《学习PHP&MYSQL之——字符编码篇(一)》中介绍了Unicode与UTF-8的转换关系,总结了一个UTF-8的编码规则,根据这个编码规则,写一个UTF-8编码的解析程序,以下是PHP的实现:复制代码 代码如下:<?php /* 程序...

    URL汉字编码问题(及乱码解决)

    在IE中输入网址"http://zh.wikipedia.org/wiki/春节",可以看到IE自动将“春节”编码成了"%E6%98%A5%E8%8A%82",这是按照utf-8编码规则将每个字节前加上%得到的。Firefox也得到了同样的结果。因此,结论1是,网址...

    易得网站数据采集系统 v1.07 UTF-8

    编码控制 - 转换编码,可以保存gb2312,gbk等编码至utf-8。 标签清理 - 可以自定义保留的标签,清理掉不必要标签。 安全性能 - 通过密码控制读取,远程读取亦安全。 操作简单 - 一键读取操作,可以按规则分组读取...

    java项目编码转换工具类

    简单的编码环境转换工具类,适用于批量修改目录中纯文本代码文件和其他纯文本,例如utf-8转gbk,gbk转utf-8,如果有需要过滤其他文件可自行加入转换过滤规则,下载之后修改一下导包就可以运行成功了。

    关于在C程序中处理UTF-8文本的方法详解

    UTF-8 互联网的普及, 强烈要求出现一种统一的编码方式. UTF-8就是在互联网上使用最广的一种unicode的实现方式. 其他实现方式还包括UTF-16和UTF-32, 不过在互联网上基本不用. ... 因此对于英语字母, UTF-8编码和ASCI

    易得网站数据采集系统 v1.07 UTF-8.zip

    编码控制 - 转换编码,可以保存gb2312,gbk等编码至utf-8。 标签清理 - 可以自定义保留的标签,清理掉不必要标签。 安全性能 - 通过密码控制读取,远程读取亦安全。 操作简单 - 一键读取操作,可以按规则分组读取...

    gb18030-2005汉字编码CSV文件

    提供GB18030-2005标准的CSV格式的汉字编码表(附带对应字符的utf-8和utf-16编码)、GB18030手册和ASCII编码表。CSV文件是由Python从系统中导出(Python代码也提供在文件中,根据国家标准手册要求设计开发的),可以...

    unicode/UCS/UTF-8/Base64/ANSI等编码介绍

    各种编码规则及用法介绍,便于开发人员对其概念的理解。

    字符集处理方案 GBK UTF-8

    字符集原理分析: 首先介绍一下目前我们系统中采用的不同字符集种类。第一,数据下载(中间件...所有jsp页面或是html页面都必将遵循这一规则。其次在java代码中向客户端写回数据的时候,也定义了字符集编码格式如下:

    ACTCMS网站管理系统 4.0 utf-8 20110623.rar

    2、更新UTF-8编码 验证码出现的问题 一、系统特色: 1、独特模型管理。通过模型管理,您可以基于文章系统克隆出不同的模型,使用标签 模板可扩展图片、新闻、文章、下载、Flash...等多个频道。每个模型可以...

    计算机基础知识-编码表.doc

    计算机基础知识-编码表 模块:计算机基础知识 主题:编码表 关键词:ASCII、Unicode、UTF-8 1、编码表 计算机发明之初,用来解决数字计算的问题,后来人们发现可以做更多的事,但由 于计算机只识" 数",因此人们必须...

    UTF8与UCS2编码格式附互转的源代码

    详细描述UTF8和UCS2的 编码规则,并附带互相转换的c++源代码

    CMS网站管理系统 v3.0 beta utf-8

    是一款具有强大的功能的基于ASP语言的开源内容管理软件,有UTF-8和GB2132两个编码版本,支持ACCESS和MSSQL两种数据库。是一款完全开源的程序,都毫无保留的完全开放源代码,用户不需额外安装其他DLL组件,其最大的...

    HexString Converter-crx插件

    可能违反UTF-8编码规则的八位字节用“?”表示 输出中的符号。 “十六进制”数据中的白色空间和线条断裂被忽略。 String-to-hex模式: ===================. 置于“文本”部分中的任意文本可以使用“String - > Hex...

    HexString转换器「HexString Converter」-crx插件

    可能违反UTF-8编码规则的字节用'?'表示输出中的符号。 “十六进制”数据中的空格和换行符将被忽略。 字符串到十六进制模式: =================== 放置在“文本”部分的任意文本可以使用“字符串 - >十六进制”选项...

Global site tag (gtag.js) - Google Analytics