`

java需要关注的知识点---Charset

 
阅读更多
1.Charset 名称必须以字母或数字开头。空字符串不是合法的 charset 名称。Charset 名称是大小写不敏感的,也就是当比较 charset 名称时总是忽略大小写。Charset 名称通常遵循 RFC2278:IANA Charset Registration Procedures 中所记录的约定.
2.一些 charset 有一个历史名称,定义这个名称是为了和以前版本的 Java 平台兼容。charset 的历史名称既可以是它的规范名称,也可以是它的某个别名。历史名称由 InputStreamReader 和 OutputStreamWriter 类的 getEncoding() 方法返回
3. 标准 charset
Java 平台的每一种实现都需要支持以下标准 charset。请参考该实现的版本文档,查看是否支持其他 charset。这些可选 charset 的行为在不同的实现之间可能有所不同。
Charset
描述
  US-ASCII 7 位 ASCII 字符,也叫作 ISO646-US、Unicode 字符集的基本拉丁块
  ISO-8859-1   ISO 拉丁字母表 No.1,也叫作 ISO-LATIN-1
  UTF-8 8 位 UCS 转换格式
  UTF-16BE 16 位 UCS 转换格式,Big Endian(最低地址存放高位字节)字节顺序
  UTF-16LE 16 位 UCS 转换格式,Little-endian(最高地址存放低位字节)字节顺序
  UTF-16 16 位 UCS 转换格式,字节顺序由可选的字节顺序标记来标识
4.字符编码方案 是编码字符集和八位组(八位字节)序列集合之间的映射关系。UTF-8、UCS-2、UTF-16、ISO 2022 和 EUC 是一些字符编码方案示例。编码方案通常与特定的编码字符集相关联;例如,UTF-8 只用来编码 Unicode。但是,一些方案与多个字符集相关联;例如,EUC 可用于编码各种亚洲字符集中的字符。
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics