`
wandejun1012
  • 浏览: 2689948 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

UTF-8和Unicode的关系

    博客分类:
  • java
 
阅读更多

 

utf-8只实际了unicode的第一个plane

 

UTF-8和Unicode的关系

看完上面两个概念解释,那么解释UTF-8和Unicode的关系就比较简单了。Unicode就是上文中提到的编码字符集,而UTF-8就是字符编码,即Unicode规则字库的一种实现形式。随着互联网的发展,对同一字库集的要求越来越迫切,Unicode标准也就自然而然的出现。它几乎涵盖了各个国家语言可能出现的符号和文字,并将为他们编号。详见:Unicode on Wikipedia。Unicode的编号从0000开始一直到10FFFF共分为16个Plane,每个Plane中有65536个字符。而UTF-8则只实现了第一个Plane,可见UTF-8虽然是一个当今接受度最广的字符集编码,但是它并没有涵盖整个Unicode的字库,这也造成了它在某些场景下对于特殊字符的处理困难(下文会有提到)。

 

 

refurl:http://cenalulu.github.io/linux/character-encoding/#toc2

 

分享到:
评论

相关推荐

    多字节与UTF-8、Unicode之间的转换

    多字节与UTF-8、Unicode之间的转换 ,里面有相互转换的6个函数 ,稍微修改下可以加到自己的c++程序中,比较好用

    泰文UTF-8编码转成Unicode编码详细代码

    文件里有详细的代码,编码格式选择UTF-8编码,亲测在linux下可以直接运行。泰文在osd输出的流程一般是泰文先转换成Unicode编码,然后调用freetype进行文字渲染叠加

    字符编码笔记:ASCII,Unicode和UTF-8

    今天中午,我突然想搞清楚Unicode和UTF-8之间的关系,于是就开始在网上查资料。 结果,这个问题比我想象的复杂,从午饭后一直看到晚上9点,才算初步搞清楚。 下面就是我的笔记,主要用来整理自己的思路。..............

    UTF-8编码和GBK编码互转,一个头文件搞定!跨平台不使用第三方库

    原理是将UTF-8编码的汉字、字母、符号、数字等转换成unicode编码,而unicode和GBK编码存在对应关系,所以只需要将对应的unicode编码的数据对应转换码表(查表)即可得到GBK编码的内容,实现UTF-8和GBK编码互转。...

    PHP正确解析UTF-8字符串技巧应用

    在《学习PHP&MYSQL之——字符编码篇(一)》中介绍了Unicode与UTF-8的转换关系,总结了一个UTF-8的编码规则,根据这个编码规则,写一个UTF-8编码的解析程序,以下是PHP的实现:复制代码 代码如下:<?php /* 程序...

    关于在C程序中处理UTF-8文本的方法详解

    重复一遍, 这里的关系是, UTF-8是Unicode的实现方式之一. UTF-8最大的一个特点, 就是它是一种变长的编码方式. 它可以使用1~6个字节表示一个符号, 根据不同的符号而变化字节长度. UTF-8的编码规则 UTF-8的编码规则很...

    简单谈谈php中的unicode和utf8编码

    直到今天,准确的说是刚才,我才知道UTF-8编码和Unicode编码是不一样的,是有区别的囧 他们之间是有一定的联系的,看看他们的区别: UTF-8的长度是不一定的,有可能是1、2、3字节 Unicode长度一定,2个字节(USC-2)...

    UTF-8 GBK UTF8 GB2312 之间的区别和关系介绍

    UTF-8:Unicode TransformationFormat-8bit,允许含BOM,但通常不含BOM。是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24为(三个字节)来编码

    utf8type.h:用C89编写的ctype.h的utf-8替代

    目标是提供与ctype.h相同的所有功能,但要考虑到utf-8。 如果要使用其他UnicodeData.txt文件生成新的unicode_data.h ,则只需将gen_unicode_data.c和sqlite3.c编译为可执行文件,并以UnicodeData.txt的路径作为第...

    计算机字符编码Unicode与Windows.pdf

    本书主要表现Unicode编码的平面数、编码方法、码位数、字符字节数、字符区域划分等重要概念 通过UTF32、UTF-16、UTF-8以及ANSI之间的对比表现字符字节数的变化规律。表现Windows操作系统个版本与Unicode之间的关系。...

    slug:甚至会掉落utf-8字符!

    可在浏览器(window.slug)和带有AMD / CommonJS风格的模块加载器中使用 npm install slug 例子 var slug = require ( 'slug' ) var print = console . log . bind ( console , '>' ) print ( slug ( 'i love ...

    浅谈python中str字符串和unicode对象字符串的拼接问题

    str字符串 ...unicode是一种编码标准,具体的实现可能是utf-8,utf-16,gbk等等,这就是中文字符串和unicode有密切关系的原因。 python内部使用两个字节存储一个unicode对象(unicode对象并不只能是

    超详细的字符编码教程

    2.4.3. Unicode字符编码所对应的存储和交换标准:UTF-8, UTF-16, UTF-32 2.4.3.1. UTF-8 2.4.3.2. Unicode与UTF-8之间的转换 2.4.3.2.1. 关于UTF-8的BOM:“EF BB BF” 2.5. 代码页Code Page 2.5.1. 什么是代码页...

    字符编码笔记.doc

    想搞清楚Unicode和UTF-8之间的关系,网上查资料。

    vb2010 开发的读取指定字符串的文本

    bttext = System.Text.Encoding.UTF8.GetBytes(TextBox2.Text) For i = 0 To bttext.Length - 1 strBin = strBin & Convert.ToString(Int32.Parse(bttext(i)), 2).PadLeft(8, "0") Next i TextBox3.Text = ...

    Unicode Standrad

    介绍Unicode标准的书,详细讲解Unicode UTF8 UTF-32 UTF-16 UCS2...的实现和关系。妈妈再也不用担心我的字符编码问题了,英文版,很清晰,自带标签

    python爬取网站数据保存使用的方法

    可能还听说过Unicode和UTF-8,那么,它们之间是什么关系呢?Unicode是一种编码方案,又称万国码,可见其包含之广。但是具体存储到计算机上,并不用这种编码,可以说它起着一个中间人的作用。你可以再把Unicode编码...

    字符编码详解 v2.2

    本文主要介绍了字符编码的基础知识,以及常见的字符编码类型,比如ASCII,Unicode,UTF-8,ISO 8859等,以及各种编码之间的关系,同时专门解释了中文字符相关的编码标准,包括GB2312,GBK,GB18030,也专门解释了...

    Day 1 编程基础1

    Day 2 字符串字符编码之ASSCIA\Unicode\UTF-8的关系与互相转换列表元组哈希表字典collections系列可命名元组(namedtuple

    Tinyxml 源代码(VC6 & VS2005)

    TinyXML完全支持UTF-8编码和前64k个字符实体(译注:如果你不明白这句译文,可能你需要了解一下Unicode编码)。 它无法做些什么 TinyXML不解析不使用DTDs(文档类型定义)或者XSLs(可扩展样式表语言)。有其它...

Global site tag (gtag.js) - Google Analytics