`

各種語系的unicode對應以及local編碼方式(zz)

 
阅读更多

種語系的unicode對應以及local編碼方式(zz)

 

另:或参见:

http://jrgraphix.net/research/unicode_blocks.php?block=87

 

另:在unicode里,\u0800-\u9FFF为中、韩、日字符。其中,中文的范围:\u4e00-\u9fa5,日文在\u0800-\u4e00,韩文为\u9fa5以上。

 

.英文

Unicode範圍: 0041-005A, 0061-007A (若含則為0021-007E)

locale編碼: ANSI

 

1. ANSI

HTML charset: us-ascii

RTF charset: 0

編碼方式: 41-5A, 61-7A (若含則為21-7E)

 

 

.中文

Unicode範圍: 2E80-2FDF, 3400-4DBF, 4E00-9FFF

備註F900-FAFF的相容型中文字應轉至一般的中文字碼處理,31A0-31BF則為注音符

 

locale編碼: 中文有BIG5, CNS, 簡體中文GB

 

1.BIG5

HTML charset: big5

RTF charset: 136

編碼方式: byte, byte 1範圍為A1-FE, byte 2範圍為40-7E, A1-FE

備註big5+目前人使用,故省略不提

2.CNS

HTML charset: (應為euc-twiso-2022-cn, IE不支援)

RTF charset:

編碼方式: byte

byte 1範圍為A1-FE時為2 byte編碼, byte 2範圍為A1-FE

byte 18E, 4 byte編碼, byte 2範圍為A1-B0, byte 3byte 4範圍A1-FE

 

備註: 4 byte編碼時, byte 2A12 byte編碼之字相同 (即第1字面), CNS目前只使用了7字面, 因此byte 2實際使用範圍為A1-A7, 早期第15字面有放了一些字, 都已入前7字面

 

3.GB

HTML charset: gb2312, gbk, euc-cn

RTF charset: 134

編碼方式: byte, byte 1範圍為81-FE, byte 2範圍為40-7E, 80-FE

 

.日文

Unicode範圍: 3040-30FF, 31F0-31FF(混用中文字

備註FF00-FFEF有半形日文,應轉至一般日文字碼處

 

locale編碼: Shift-JIS, EUC-JP

 

1.Shift-JIS

HTML charset: shift_jis, x-sjis, iso-2022-jp

RTF charset: 128

編碼方式: /byte

byte 1範圍為A1-DF時為1 byte編碼

byte 1範圍為81-9F, E0-EF時為2 byte編碼, byte 2範圍為40-7E, 80-FC

2.EUC-JP

HTML charset: euc-jp, x-euc-jp

RTF charset:

編碼方式: byte

byte 18E, 2 byte編碼, byte 2範圍為A1-DF

byte 1範圍為A1-FE, 2 byte編碼, byte 2範圍為A1-FE

byte 18F時為3 byte編碼, byte 2byte 3範圍A1-FE

 

備註: IE不支援3 byte編碼部份

 

.

Unicode範圍: 1100-11FF, 3130-318F, AC00-D7AF(混用中文字

備註FF00-FFEF有半形文,應轉至一般文字碼處

 

locale編碼: Johab, EUC-KR

 

1.Johab

HTML charset: johab

RTF charset: 130

編碼方式: byte

byte 1範圍為84-D3, byte 2範圍為41-7E, 81-FE

byte 1範圍為D8-DE, E0-FE, byte 2範圍為31-7E, 91-FE

2.EUC-KR

HTML charset: euc-kr, iso-2022-kr

RTF charset: 129

編碼方式: byte, byte 1範圍為A1-FE, byte 2範圍為A1-FE

 

.阿拉伯文

Unicode範圍: 0600-06FF, 0750-077F

 

locale編碼: Windows

 

1.Windows

HTML charset: windows-1256

RTF charset: 178

 

編碼方式: 1 byte

 

.泰文

Unicode範圍: 0E00-0E7F

 

locale編碼: Windows

 

1.Windows

HTML charset: windows-874

RTF charset: 222

編碼方式: 1 byte

 

.俄文

Unicode範圍: 0400-052F (西里)

 

locale編碼: Windows, ISO, KOI8-U, KOI8-R

 

1.Windows

HTML charset: windows-1251

RTF charset: 204

編碼方式: 1 byte

2.ISO

HTML charset: iso-8859-5

RTF charset:

編碼方式: 1 byte

3.KOI8-U

HTML charset: koi8-u

RTF charset:

編碼方式: 1 byte

4.KOI8-R

HTML charset: koi8-r

RTF charset:

編碼方式: 1 byte

 

.德文/法文

Unicode範圍: 00C0-00FF(混用英文字母)

備註:字母上面有2德文, 字母上面有重音符法文

 

locale編碼: ANSI

 

1.ANSI

HTML charset: iso-8859-1, windows-1252

RTF charset: 0

編碼方式: 1 byte

 

.印尼文/馬來西

Unicode範圍: 同英文, 拼音

locale編碼: 同英文

 

.其他

,土耳其文,希伯,拉丁,越南文等尚在研究中...

 

.歐語

Unicode範圍(拉丁文): 00C0-02AF, 1E00-1EFF(混用英文)

 

locale編碼: Windows, ISO

 

1.Windows

HTML charset: windows-1250

RTF charset: 238

編碼方式: 1 byte

2.ISO

HTML charset: iso-8859-2

RTF charset:

編碼方式: 1 byte

 

十一.

Unicode範圍: 0370-03FF, 1F00-1FFF, 2C80-2CFF

 

locale編碼: Windows

 

1.Windows

HTML charset: windows-1253, iso8859-7 (後者IE不支援)

RTF charset: 161

編碼方式: 1 byte

 

十二.希伯

Unicode範圍: 0590-05FF

 

locale編碼: Windows

 

1.Windows

HTML charset: windows-1255, iso8859-8 (後者IE不支援)

RTF charset: 177

編碼方式: 1 byte

 

十三.土耳其文

Unicode範圍: 同拉丁文(混用英文)

 

locale編碼: Windows

 

1.Windows

HTML charset: windows-1254, iso8859-9 (後者IE不支援)

RTF charset: 162

編碼方式: 1 byte

分享到:
评论

相关推荐

    love string 超好用的字符编码查询工具

    多种编码查询替换方式。添加退出时效果。  -----------------------  1.6  修正一个 BUG,全面支持 WinHex,Hex WorkShop。  -----------------------  1.7  主窗口添加对于多种语系字符串的 Unicode、Unicode...

    TYPO3中的多语系网站.doc

    这是一个比较“老”的实现多语系网站的方式。 但这并不表示是 "old-fashioned(守旧的)"的,与新的方法相比,这是一种比较低级的实现方法!它只是适合另一目的。 Schæffergården 在丹麦是一个高档的会议中心,...

    AE CS4语系切换(V1.10)

    After Effect CS4 语系切换 (V1.10版)

    2021日语系日本名古屋实习总结.docx

    2021日语系日本名古屋实习总结.docx

    LanguageFamiliyandIndoEuropean 英语语系之印欧语系PPT课件.pptx

    LanguageFamiliyandIndoEuropean 英语语系之印欧语系PPT课件.pptx

    【测绘】外语地名译音规则印度语系(报批稿).pdf

    【测绘】外语地名译音规则印度语系(报批稿)

    sai_tw:Paint tool SAI 中文语系档

    这是绘图软体[PaintTool SAI] 的中文语系档,以及其他相关中文化档案对应版本为1.2.0 使用方法 把language.conf 替换掉你安装SAI 的目录底下的同名档案 关于toolink 与toolnrm 两个资料夹 里头是画笔工具的相关设定...

    NotePad2 MOD-v1.1.1.2 (简/繁/英)

    主目录下的是简/繁/英三语言一体的版本,自动根据系统选择语言,子目录下分别对应各语系的版本。 替换系统记事本可用压缩包中的“替换系统记事本.bat”,还原系统记事本可用压缩包中的“还原系统记事本.bat”。 ...

    HA_Passolo2011CollaborationSP6_gnatix.rar

    文本可以被翻译为多种语言,包括亚洲语系(Unicode 码)以及书写方式为从右向左的语言,比如希伯来语和阿拉伯语。 可用 Passolo 本地化的文件格式一览表 Windows 标准资源 (32 位和 64 位)二进制文件 (EXE, DLL, OCX...

    BP.zip_BP语音_bp 语音语系_bp识别_语音识别

    BP语音识别分析,用于识别语音区别,可以识别语音

    japanese.zip

    明治时代的日本人把日语划为阿尔泰语系,但阿尔泰语系这个说法已经普遍遭到否定,霍默·赫尔伯特(Homer Hulbert)和大野晋认为日语属于达罗毗荼语系,西田龙雄认为日语属于汉藏语系,白桂思(Christopher I....

    japans.zip

    明治时代的日本人把日语划为阿尔泰语系,但阿尔泰语系这个说法已经普遍遭到否定,霍默·赫尔伯特(Homer Hulbert)和大野晋认为日语属于达罗毗荼语系,西田龙雄认为日语属于汉藏语系,白桂思(Christopher I....

    初级日语课件前期学习

    明治时代的日本人把日语划为阿尔泰语系,但阿尔泰语系这个说法已经普遍遭到否定,霍默·赫尔伯特(Homer Hulbert)和大野晋认为日语属于达罗毗荼语系,西田龙雄认为日语属于汉藏语系,白桂思(Christopher I....

    语言体系PPT课件.pptx

    语言体系PPT课件.pptx

    libiconv库 实现一个字符编码到另一个字符编码的转换 已编译成dll,lib

    libiconv库 [1]为需要做转换的应用提供了一个iconv的函数,以实现一个字符编码到另一个字符编码的转换。 包括的编码有: 欧洲语系 ASCII, ISO-8859-{1,2,3,4,5,7,9,10,13,14,15,16}, KOI8-R, KOI8-U, KOI8-RU, CP{...

    ASP UTF-8编码生成静态网页的函数

    FSO对象的文件编码属性只有三种,系统默认,Unicode,ASCII,并没有我们要的utf-8,所以一般中文系统上使用FSO对象生成的文件都是gb2312网页编码格式,无法生成UTF-8编码,因此,英文等拉丁语系和中文可以正常显示,...

    Python正则表达式如何匹配中文

    注:要确保正则字符和匹配文本是 unicode 范围内的编码。 其他 扩充 范围 几个主要非英文语系字符范围: 2E80~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩的...

    DelFxExtLocal:删除用不着的Firefox 套件语系

    删除用不着的Firefox 套件语系。 公开发布于。 使用说明: 强烈建议:执行本程式前,请先备份个人设定档。 DelFxExtLocal.exe 放到个人设定档底下的extensions 资料夹,点两下执行。 执行过程中,请不要取消档案...

    Vallen Jpegger 5.70 中文版 一款免费影像浏览器工具.zip

    Vallen Jpegger支持21种语系,完美支持Unicode。支持40种以上的图像格式。内置MP3音乐浏览器,可播放MP3、MIDI、WAV文件,支持 tag标签记录,适合管理大量音乐文件。此外,Vallen Jpegger还支持命令行参数设置,适合...

    phabricator-zh_hant:Phabricator 繁体中文语系(http

    Phabricator 繁体中文语系 Phabricator官方网站 ##安装Phabricator 安装需求 作业系统 Linux FreeBSD Mac OS X Solaris 网页伺服器 Apache: 安装使用Apache + mod_php. nginx: 安装使用nginx + php-fpm. ...

Global site tag (gtag.js) - Google Analytics