`
chinahnzhou
  • 浏览: 349033 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

汉字在UTF-8中的需要几个字节表示

 
阅读更多

 

汉字在GB家族中是双字节,但在UTF-8中却是3字节,所以其编码方式是1110xxxx 10xxxxxx 10xxxxxx

UTF-8 使用一至四个字节为每个字符编码。

 

  1. 128 个 ASCII 字符(Unicode 范围由 U+0000 至 U+007F)只需一个字节。
  2. 带有变音符号的拉丁文、希腊文、西里尔字母、亚美尼亚语、希伯来文、阿拉伯文、叙利亚文及马尔代夫语(Unicode 范围由 U+0080 至 U+07FF)需要二个字节。
  3. 其他基本多文种平面(BMP)中的字符(CJK属于此类-Qieqie注)使用三个字节。
  4. 其他 Unicode 辅助平面的字符使用四字节编码。 
分享到:
评论

相关推荐

    趣谈Unicode、Ascii、utf-8、GB2312、GBK等编码学问_.docx

    在 DBCS 系列标准里,最大的特点是两字节长的汉字字符和一字节长的英文字符并存于同一套编码方案里,因此他们写的程序为了支持中文处理,必需要留意字串里的每一个字节的值,假如这个值是大于 127 的,那么就认为一...

    常用编码方式中英文对照表

    * 特点:UTF-8 编码是变长编码,可以表示 Unicode 中的所有字符。 * 应用场景:unicode 编码系统、多语言支持、网络协议等。 常用编码方式的选择取决于具体的应用场景和语言环境。了解常用编码方式的特点和应用场景...

    Java读取TXT文本文件乱码解决方案.doc

    "Java读取TXT文本文件乱码解决方案" Java 读取 TXT 文本文件乱码解决方案中,主要讨论的是在 Java 中读取 TXT 文本文件时出现乱码的问题,并提供了解决方案。...* UTF-8 编码的前三个字节是 EFBBBF

    jsp Unsupported encoding- gb2312 错误原因.docx

    它使用双字节编码,每个汉字占用两个字节,总共可以表示 7445 个汉字。gb2312 编码广泛应用于中国大陆地区的计算机系统中。 在 JSP 页面中使用 gb2312 编码可以使得中文字符正确地显示。但是,如果不正确地声明编码...

    Java面试题、笔试题

    5. UTF-8编码中的中文占几个字节、int型占几个字节? UTF-8是一种变长编码技术,UTF-8编码中的中文占用的字节不确定,可能2个、3个、4个,int型占4个字节。 6. 静态代理和动态代理的区别 代理是一种常用的设计...

    grub4dos-V0.4.6a-2017-02-04更新

    例如:echo -e \x18 显示 UTF-8 字符 0x18。 echo -e \X2191 显示 unicode 字符 0x2191。 2016-03-15(yaya) 1.增加动画控制热键 F2:播放/停止。 2.增加动画控制位 0x835b,位0:0/1=停止/播放。 3.增加精简...

    01------helloServlet.rar

    解决:Desktop>javac -encoding UTF-8 HelloServlet.java 原因:使用CMD运行java程序的时候,系统默认的编码格式是gbk。而包含中文字符的代码一般是UNICODE格式,所以直接运行含有中文字符的代码就很容易出现编码...

    Linux中java log输出中文乱码.docx

    在解决 Java log 输出中文乱码问题时,需要关注以下几个重要的 locale 环境变量: 1. LC_CTYPE:用于字符分类和字符串处理,控制全部字符的处理方式,包括字符编码,字符是单字节还是多字节,如何打印等。这是最...

    ajax乱码解决汇总

    第二,utf-8是每个汉字(unicode字符)用3个字节来存储。 第三,用utf-8来send数据是不会出现乱码的,是后台程序没有正确解码才会出现乱码。 第四,ajax发送数据的时候如果修改 Content-Type 为 application/x-...

    invalid multibyte character sequence 870告警1

    在Unicode标准中,每个字符可以使用多个字节来表示,例如UTF-8编码标准。 为什么会出现Invalid Multibyte Character Sequence 警告? 当我们在编程中使用非ASCII字符时,例如中文字符,如果编译器不支持多字节字符...

    有关于当安装maven成功后javaweb会出现几个乱码问题,都会解决

    通常我们所遇到过多UTF-8这是Unicode编码的实现方式,请一定要加以区分。 GB2312字集是简体字集;BIG5字集是台湾繁体字集;GBK字集是简繁字集,包括了GB字集、BIG5字集和一些符号 GB18030是国家制定的一个强制性大字集...

    一道 C语言 二维数组作业题目

    题目 有下面这样的一个二维表,请将其使用二维数组... char ach[16][64]={ // utf-8编码中会出现部分文字符占用4字节或3字节的问题,所以这里无论是英文字符还是中文,统一定义宽度4字节,总记64字节 姓名,语文,数学

    SuperNotepad

    21) 支持多种格式UTF-8, BIG5, GB2321, Unicode,Unicode big edian, Rich Text, USC-2 22) 查看密码 (扩展对所有已打开的窗口密码均有效Ctrl+D) 23) 正则表达式处理字符 例︰"\b([a-z]+) \1\b"合并多...

    易语言-编码转换类1.2版模块

    GBK编码:1-2个字节,包含GB2312、ASCII、BIG5,注意:同一个繁体字在GBK和BIG5中的编码是各不相同的。 GB18030编码:1字节、2字节、4字节,兼容GBK。 UNICODE是国际统一编码,UCS-2标准:2字节,UCS-4标准:4字节。...

    Tinyxml 源代码(VC6 & VS2005)

    TinyXML完全支持UTF-8编码和前64k个字符实体(译注:如果你不明白这句译文,可能你需要了解一下Unicode编码)。 它无法做些什么 TinyXML不解析不使用DTDs(文档类型定义)或者XSLs(可扩展样式表语言)。有其它...

    CVASP框架 201204C

    基本信息:版本编号:201204C核心字节:51700核心文件:cvcorem.asp英文名称:CVASP -- Controller View for ASP Framework中文名称:CVASP框架程序语言:VBScript字符编码:GB2312, GBK, UTF-8 功能简介:简便:...

    PHP字符串的编码问题的详细介绍

    如ASCII编码字符占用1个字节,UTF-8编码的中文字符是3字节,GBK为2个字节。    PHP 也自带几种字符串截取函数,其中常用到的就是 substr 和 mb_substr。  使用substr截取中文字符时会出现乱码,这是因为substr是按...

    千字文c语言

    文章中所有的字符在 UCS-2 能够表示的范围内,即字符的 Unicode 值用两个字节就可以表示。 输入 一篇文章,总字数不限、每行字符数不限。每个字重复出现的次数不超过 60000 次。 输出 按照 Unicode 编码从小...

    PHP实时统计中文字数和区别

    这个是困扰我很久的问题,PHP 中有很多函数可以计算字符串的长度,比如下面的例子,分别使用了 strlen,mb_strlen,mb_strwidth 这个三个函数去测试统计字符串的长度,看看把中文算成几个字节: echo strlen(你好...

    eclipse文件编码设置、转换原理与实用工具

    批量转换文件的二进制编码(用新的文件编码重写文件),如从gbk到utf-8,免除逐个文件全选、复制、右键、属性、改文本文件编码、粘贴、保存之苦(该转换是根据编码设置文件进行转换的,因此更加安全); c.结合上述...

Global site tag (gtag.js) - Google Analytics