[转]有关UTF-8的一些资料 -

liuqzan

浏览: 205429 次
性别:
来自: 深圳

最近访客更多访客>>

zhuangfeng159

hqbzl

q377376701q

himoo

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

[转]有关UTF-8的一些资料

博客分类：

JAVA

VB 单元测试 J#

一, 最重要的,UTF-8和Unicode的转换

UTF-8 编码是一种被广泛应用的编码，这种编码致力于把全球的语言纳入一个统一的编码，目前已经将几种亚洲语言纳入。UTF 代表 UCS Transformation Format.

UTF-8 采用变长度字节来表示字符，理论上最多可以到 6 个字节长度。UTF-8 编码兼容了 ASC II(0-127)，也就是说 UTF-8 对于 ASC II 字符的编码是和 ASC II 一样的。对于超过一个字节长度的字符，才用以下编码规范：

左边第一个字节1的个数表示这个字符编码字节的位数，例如两位字节字符编码样式为为：110xxxxx 10xxxxxx；三位字节字符的编码样式为：1110xxxx 10xxxxxx 10xxxxxx.；以此类推，六位字节字符的编码样式为：1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx。 xxx 的值由字符编码的二进制表示的位填入。只用最短的那个足够表达一个字符编码的多字节串。例如：

Unicode 字符： 00 A9（版权符号） = 1010 1001， UTF-8 编码为：11000010 10101001 = 0x C2 0xA9; 字符 22 60 (不等于符号) = 0010 0010 0110 0000， UTF-8 编码为：11100010 10001001 10100000 = 0xE2 0x89 0xA0

以上转换例子已经确认是正确的,不用怀疑,如果看不懂请再仔细想想

Unicode编码和utf-8编码之间的对应关系表
The table below summarizes the format of these different octet types.
The letter x indicates bits available for encoding bits of the
character number.

    Char. number range   |         UTF-8 octet sequence
       (hexadecimal)     |               (binary)
    --------------------+---------------------------------------------
    0000 0000-0000 007F | 0xxxxxxx
    0000 0080-0000 07FF | 110xxxxx 10xxxxxx
    0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx     //////A/////////
    0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
这是一个Unicode编码和utf-8编码之间的对应关系表。中文的Unicode编码范围在0000 0800-0000 FFFF 中。

二, 关于BOM

UTF-8以字节为编码单元，没有字节序的问题。UTF-16以两个字节为编码单元，在解释一个UTF-16文本前，首先要弄清楚每个编码单元的字节序。例如收到一个“奎”的Unicode编码是594E，“乙”的Unicode编码是4E59。如果我们收到UTF-16字节流“594E”，那么这是“奎”还是“乙”？

　　Unicode规范中推荐的标记字节顺序的方法是BOM。BOM不是“Bill Of Material”的BOM表，而是Byte Order Mark。BOM是一个有点小聪明的想法：

　　在UCS编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。

　　这样如果接收者收到FEFF，就表明这个字节流是Big-Endian的；如果收到FFFE，就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。

　　UTF-8不需要BOM来表明字节顺序，但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF（读者可以用我们前面介绍的编码方法验证一下）。所以如果接收者收到以EF BB BF开头的字节流，就知道这是UTF-8编码了。

三, VB实现UTF-8转Unicode的函数

1.不使用API

Function Utf8ToUnicode(ByRef Utf() As Byte) As String
Dim utfLen As Long

utfLen = -1
On Error Resume Next
utfLen = UBound(Utf)
If utfLen = -1 Then Exit Function

On Error GoTo 0

Dim i As Long, j As Long, k As Long, N As Long
Dim B As Byte, cnt As Byte
Dim Buf() As String
ReDim Buf(utfLen)

i = 0
j = 0
Do While i <= utfLen
       B = Utf(i)

       If (B And &HFC) = &HFC Then
         cnt = 6
       ElseIf (B And &HF8) = &HF8 Then
         cnt = 5
       ElseIf (B And &HF0) = &HF0 Then
         cnt = 4
       ElseIf (B And &HE0) = &HE0 Then
         cnt = 3
       ElseIf (B And &HC0) = &HC0 Then
         cnt = 2
       Else
         cnt = 1
       End If

       If i + cnt - 1 > utfLen Then
         Buf(j) = "?"
         Exit Do
       End If

       Select Case cnt
       Case 2
         N = B And &H1F
       Case 3
         N = B And &HF
       Case 4
         N = B And &H7
       Case 5
         N = B And &H3
       Case 6
         N = B And &H1
       Case Else
         Buf(j) = Chr(B)
         GoTo Continued:
       End Select

       For k = 1 To cnt - 1
         B = Utf(i + k)
         N = N * &H40 + (B And &H3F)
       Next

       Buf(j) = ChrW(N)
Continued:
       i = i + cnt
       j = j + 1
Loop

Utf8ToUnicode = Join(Buf, "")
End Function

2. 使用API (包括Unicode转UTF-8)

Private Declare Function WideCharToMultiByte Lib "kernel32" (ByVal CodePage As Long, ByVal dwFlags As Long, ByVal lpWideCharStr As Long, ByVal cchWideChar As Long, ByRef lpMultiByteStr As Any, ByVal cchMultiByte As Long, ByVal lpDefaultChar As String, ByVal lpUsedDefaultChar As Long) As Long
Private Declare Function MultiByteToWideChar Lib "kernel32" (ByVal CodePage As Long, ByVal dwFlags As Long, ByVal lpMultiByteStr As Long, ByVal cchMultiByte As Long, ByVal lpWideCharStr As Long, ByVal cchWideChar As Long) As Long
Private Const CP_UTF8 = 65001

Function Utf8ToUnicode(ByRef Utf() As Byte) As String
Dim lRet As Long
Dim lLength As Long
Dim lBufferSize As Long
lLength = UBound(Utf) - LBound(Utf) + 1
If lLength <= 0 Then Exit Function
lBufferSize = lLength * 2
Utf8ToUnicode = String$(lBufferSize, Chr(0))
lRet = MultiByteToWideChar(CP_UTF8, 0, VarPtr(Utf(0)), lLength, StrPtr(Utf8ToUnicode), lBufferSize)
If lRet <> 0 Then
Utf8ToUnicode = Left(Utf8ToUnicode, lRet)
End If
End Function

Function UnicodeToUtf8(ByVal UCS As String) As Byte()
Dim lLength As Long
Dim lBufferSize As Long
Dim lResult As Long
Dim abUTF8() As Byte
lLength = Len(UCS)
If lLength = 0 Then Exit Function
lBufferSize = lLength * 3 + 1
ReDim abUTF8(lBufferSize - 1)
lResult = WideCharToMultiByte(CP_UTF8, 0, StrPtr(UCS), lLength, abUTF8(0), lBufferSize, vbNullString, 0)
If lResult <> 0 Then
lResult = lResult - 1
ReDim Preserve abUTF8(lResult)
UnicodeToUtf8 = abUTF8
End If
End Function

Private Sub Command1_Click()
Dim byt() As Byte
byt = UnicodeToUtf8("测试")
Debug.Print Hex(byt(0)) & Hex(byt(1)) & Hex(byt(2))
Debug.Print Utf8ToUnicode(byt())
End Sub

分享到：

ANSI和Unicode中的汉字编码（转) | Android 实现多个Audio文件的顺序播放

2010-11-12 20:41
浏览 1044
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[转]有关UTF-8的一些资料

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[转]有关UTF-8的一些资料

评论

发表评论

相关推荐

Mac OS X Lion Eclipse JDK JRE Not found problem(Solved)

Oracle 多行转列方法

Using the Spring Security Facelets Tag Library

Don't repeat DAO

GenericDao class

Object to genericty

JAVA专用术语中英文对照

ANSI和Unicode中的汉字编码 （转)

思考才能有效的解决问题----<WEB应用在捕捉异常并处理时，请不要使用System.exit(1)!!!! >

同步的本质

多线程使用数据库连接池JDCconectionPool造成内存泄露 OutOfMemoryException 原因及解决

内存泄露与溢出区别

向大家强烈推荐 NetBeans Profiler查找内存泄漏

使用多线程完成任务队列造成内存泄露

Java堆.栈和常量池<转>

java 线程Thread.Sleep详解 <转帖>

追MM与Java的23种设计模式

JAVA 单例模式与多线程

MyJxta2.5研究心得 (2009-07-24)

最近访客更多访客>>

ANSI和Unicode中的汉字编码（转)

思考才能有效的解决问题----<WEB应用在捕捉异常并处理时，请不要使用System.exit(1)!!!!　>　

向大家强烈推荐　NetBeans Profiler查找内存泄漏