各種語系的unicode對應以及local編碼方式(zz)
另:或参见:
http://jrgraphix.net/research/unicode_blocks.php?block=87
另:在unicode里,\u0800-\u9FFF为中、韩、日字符。其中,中文的范围:\u4e00-\u9fa5,日文在\u0800-\u4e00,韩文为\u9fa5以上。
一.英文
Unicode範圍: 0041-005A, 0061-007A (若含數字與符號,則為0021-007E)
locale編碼: ANSI
1. ANSI
HTML charset: us-ascii
RTF charset: 0
編碼方式: 41-5A, 61-7A (若含數字與符號,則為21-7E)
二.中文
Unicode範圍: 2E80-2FDF, 3400-4DBF, 4E00-9FFF
備註:F900-FAFF的相容型中文字碼,應轉至一般的中文字碼處理,31A0-31BF則為注音符號表
locale編碼: 繁體中文有BIG5, CNS, 簡體中文為GB
1.BIG5
HTML charset: big5
RTF charset: 136
編碼方式: 雙byte語系, byte 1範圍為A1-FE, byte 2範圍為40-7E, A1-FE
備註:big5+目前幾乎無人使用,故省略不提
2.CNS
HTML charset: 無 (應為euc-tw或iso-2022-cn, 但IE並不支援)
RTF charset: 無
編碼方式: 多byte語系
byte 1範圍為A1-FE時為2 byte編碼, byte 2範圍為A1-FE
byte 1為8E時, 為4 byte編碼, byte 2範圍為A1-B0, byte 3與byte 4範圍均為A1-FE
備註: 4 byte編碼時, byte 2為A1與2 byte編碼之字碼相同 (即第1字面), CNS目前只使用了7個字面, 因此byte 2實際使用範圍為A1-A7, 早期第15字面有放了一些字碼, 後來都已編入前7個字面內了
3.GB
HTML charset: gb2312, gbk, euc-cn
RTF charset: 134
編碼方式: 雙byte語系, byte 1範圍為81-FE, byte 2範圍為40-7E, 80-FE
三.日文
Unicode範圍: 3040-30FF, 31F0-31FF(混用中文字碼)
備註:FF00-FFEF有半形日文,應轉至一般日文字碼處理
locale編碼: Shift-JIS, EUC-JP
1.Shift-JIS
HTML charset: shift_jis, x-sjis, iso-2022-jp
RTF charset: 128
編碼方式: 單/雙byte語系
byte 1範圍為A1-DF時為1 byte編碼
byte 1範圍為81-9F, E0-EF時為2 byte編碼, byte 2範圍為40-7E, 80-FC
2.EUC-JP
HTML charset: euc-jp, x-euc-jp
RTF charset: 無
編碼方式: 多byte語系
byte 1為8E時, 為2 byte編碼, byte 2範圍為A1-DF
byte 1範圍為A1-FE時, 為2 byte編碼, byte 2範圍為A1-FE
byte 1為8F時為3 byte編碼, byte 2與byte 3範圍均為A1-FE
備註: IE不支援3 byte編碼部份
四.韓文
Unicode範圍: 1100-11FF, 3130-318F, AC00-D7AF(混用中文字碼)
備註:FF00-FFEF有半形韓文,應轉至一般韓文字碼處理
locale編碼: Johab, EUC-KR
1.Johab
HTML charset: johab
RTF charset: 130
編碼方式: 雙byte語系
byte 1範圍為84-D3時, byte 2範圍為41-7E, 81-FE
byte 1範圍為D8-DE, E0-FE時, byte 2範圍為31-7E, 91-FE
2.EUC-KR
HTML charset: euc-kr, iso-2022-kr
RTF charset: 129
編碼方式: 雙byte語系, byte 1範圍為A1-FE, byte 2範圍為A1-FE
五.阿拉伯文
Unicode範圍: 0600-06FF, 0750-077F
locale編碼: Windows
1.Windows
HTML charset: windows-1256
RTF charset: 178
編碼方式: 1 byte語系
六.泰文
Unicode範圍: 0E00-0E7F
locale編碼: Windows
1.Windows
HTML charset: windows-874
RTF charset: 222
編碼方式: 1 byte語系
七.俄文
Unicode範圍: 0400-052F (西里爾文)
locale編碼: Windows, ISO, KOI8-U, KOI8-R
1.Windows
HTML charset: windows-1251
RTF charset: 204
編碼方式: 1 byte語系
2.ISO
HTML charset: iso-8859-5
RTF charset: 無
編碼方式: 1 byte語系
3.KOI8-U
HTML charset: koi8-u
RTF charset: 無
編碼方式: 1 byte語系
4.KOI8-R
HTML charset: koi8-r
RTF charset: 無
編碼方式: 1 byte語系
八.德文/法文
Unicode範圍: 00C0-00FF(混用英文字母)
備註:字母上面有2點者為德文, 字母上面有重音符號者為法文
locale編碼: ANSI
1.ANSI
HTML charset: iso-8859-1, windows-1252
RTF charset: 0
編碼方式: 1 byte語系
九.印尼文/馬來西亞文
Unicode範圍: 同英文, 為拼音語系
locale編碼: 同英文
十.其他
希臘文,土耳其文,希伯來文,中歐拉丁語文,越南文等尚在研究中...
十.中歐語系
Unicode範圍(拉丁語文): 00C0-02AF, 1E00-1EFF(混用英文)
locale編碼: Windows, ISO
1.Windows
HTML charset: windows-1250
RTF charset: 238
編碼方式: 1 byte語系
2.ISO
HTML charset: iso-8859-2
RTF charset: 無
編碼方式: 1 byte語系
十一.希臘文
Unicode範圍: 0370-03FF, 1F00-1FFF, 2C80-2CFF
locale編碼: Windows
1.Windows
HTML charset: windows-1253, iso8859-7 (後者IE不支援)
RTF charset: 161
編碼方式: 1 byte語系
十二.希伯來文
Unicode範圍: 0590-05FF
locale編碼: Windows
1.Windows
HTML charset: windows-1255, iso8859-8 (後者IE不支援)
RTF charset: 177
編碼方式: 1 byte語系
十三.土耳其文
Unicode範圍: 同拉丁語文(混用英文)
locale編碼: Windows
1.Windows
HTML charset: windows-1254, iso8859-9 (後者IE不支援)
RTF charset: 162
編碼方式: 1 byte語系
相关推荐
多种编码查询替换方式。添加退出时效果。 ----------------------- 1.6 修正一个 BUG,全面支持 WinHex,Hex WorkShop。 ----------------------- 1.7 主窗口添加对于多种语系字符串的 Unicode、Unicode...
这是一个比较“老”的实现多语系网站的方式。 但这并不表示是 "old-fashioned(守旧的)"的,与新的方法相比,这是一种比较低级的实现方法!它只是适合另一目的。 Schæffergården 在丹麦是一个高档的会议中心,...
After Effect CS4 语系切换 (V1.10版)
2021日语系日本名古屋实习总结.docx
LanguageFamiliyandIndoEuropean 英语语系之印欧语系PPT课件.pptx
【测绘】外语地名译音规则印度语系(报批稿)
这是绘图软体[PaintTool SAI] 的中文语系档,以及其他相关中文化档案对应版本为1.2.0 使用方法 把language.conf 替换掉你安装SAI 的目录底下的同名档案 关于toolink 与toolnrm 两个资料夹 里头是画笔工具的相关设定...
主目录下的是简/繁/英三语言一体的版本,自动根据系统选择语言,子目录下分别对应各语系的版本。 替换系统记事本可用压缩包中的“替换系统记事本.bat”,还原系统记事本可用压缩包中的“还原系统记事本.bat”。 ...
文本可以被翻译为多种语言,包括亚洲语系(Unicode 码)以及书写方式为从右向左的语言,比如希伯来语和阿拉伯语。 可用 Passolo 本地化的文件格式一览表 Windows 标准资源 (32 位和 64 位)二进制文件 (EXE, DLL, OCX...
BP语音识别分析,用于识别语音区别,可以识别语音
明治时代的日本人把日语划为阿尔泰语系,但阿尔泰语系这个说法已经普遍遭到否定,霍默·赫尔伯特(Homer Hulbert)和大野晋认为日语属于达罗毗荼语系,西田龙雄认为日语属于汉藏语系,白桂思(Christopher I....
明治时代的日本人把日语划为阿尔泰语系,但阿尔泰语系这个说法已经普遍遭到否定,霍默·赫尔伯特(Homer Hulbert)和大野晋认为日语属于达罗毗荼语系,西田龙雄认为日语属于汉藏语系,白桂思(Christopher I....
明治时代的日本人把日语划为阿尔泰语系,但阿尔泰语系这个说法已经普遍遭到否定,霍默·赫尔伯特(Homer Hulbert)和大野晋认为日语属于达罗毗荼语系,西田龙雄认为日语属于汉藏语系,白桂思(Christopher I....
语言体系PPT课件.pptx
libiconv库 [1]为需要做转换的应用提供了一个iconv的函数,以实现一个字符编码到另一个字符编码的转换。 包括的编码有: 欧洲语系 ASCII, ISO-8859-{1,2,3,4,5,7,9,10,13,14,15,16}, KOI8-R, KOI8-U, KOI8-RU, CP{...
FSO对象的文件编码属性只有三种,系统默认,Unicode,ASCII,并没有我们要的utf-8,所以一般中文系统上使用FSO对象生成的文件都是gb2312网页编码格式,无法生成UTF-8编码,因此,英文等拉丁语系和中文可以正常显示,...
注:要确保正则字符和匹配文本是 unicode 范围内的编码。 其他 扩充 范围 几个主要非英文语系字符范围: 2E80~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩的...
删除用不着的Firefox 套件语系。 公开发布于。 使用说明: 强烈建议:执行本程式前,请先备份个人设定档。 DelFxExtLocal.exe 放到个人设定档底下的extensions 资料夹,点两下执行。 执行过程中,请不要取消档案...
Vallen Jpegger支持21种语系,完美支持Unicode。支持40种以上的图像格式。内置MP3音乐浏览器,可播放MP3、MIDI、WAV文件,支持 tag标签记录,适合管理大量音乐文件。此外,Vallen Jpegger还支持命令行参数设置,适合...
Phabricator 繁体中文语系 Phabricator官方网站 ##安装Phabricator 安装需求 作业系统 Linux FreeBSD Mac OS X Solaris 网页伺服器 Apache: 安装使用Apache + mod_php. nginx: 安装使用nginx + php-fpm. ...