`

字符集和字符编码

    博客分类:
  • java
阅读更多

0. 字符

:大家平时看到的符号,用来组成某种句子、语言

如 A B 张三

 

1. 字符集

每一种语言都有一个字符集,如英语有26个字符.....

 

2. 编码字符集(数字的集合)

:一个编码字符集是一个字符集的的编码形式,即为每个字符分配一个唯一的数字

如 ASCII :分配128个字符

     扩展ASCII:分配256个字符

    Unicode:包括了全人类字符,全人类字符的编码是Unicdoe的一个子集

ASCII和扩展的ASCII、Unicode都是一种表示字符集的编码方式,(假设)如字符a 对应0101010.....

每个字符都有对应的唯一2进制

(字符集越大,需要的字节数就越多)

 

3. 代码

代码点:代码点就是数字的集合

编码字符集合:是有效的代码点集合,已经用于表示字符的数字

如:Unicode的编码字符集合是:U+0000 -- U+10FFFF

      而这个编码字符集合可以看成是属于 0---2的32次方-1  代码点范围的集合的

 

总结:

字符---字符集--map number--编码字符集---utf-8 utf-9-...---字符编码后的数据

 

4. 字符编码方案( 如utf-8 utf-16 utf-32 )

注意:

     一般我们说的Unicode实际是:UTF-16字符编码的Unicode

 

以Unicode( 是编码字符集 )为例

 

由于字符 a b c d等只需1个字节就可以保存,但Unicode为容纳所有的语言的字符集,统一使用32位来表示每个字符

这样在网络传输时 对只需1个字节表示的字符,造成了浪费

 

Unicode支持以下3种字符编码:

 

1. UTF-8 :这是HTML和协议常用的,这里把Unicode字符转换成一种长度可变的字节编码。与ASCII集对应的Unicode字符,采用8位来表示,并且转变成UTF-8的Unicode字符可以再许多现有的软件找使用,如大多数浏览器支持UTF-8字符编码

 

2. UTF-16 :把较为常用的字符采用16位的代码单元表示,其它的用32位

 

3.UTF-32 :采用32位来表示每个字符,不是很好的选择。

 

(具体看文档或百度)

 

或者这篇文章:

http://www.doc88.com/p-99650883920.html

 

 

               String s = "\u03C0w\uD835\uDD6B\uD835\uDD6B";
		System.out.println(s.length());
		
		int codePointCount = s.codePointCount(0,s.length());
		System.out.println(codePointCount);
		
		int index = 0;
		int cp = 0;
		
		for(int i =0;i<s.length();i++)
			System.out.println((int)s.charAt(i));
		System.out.println("-----");
		
		for(int i =0;i<codePointCount;){
			index = s.offsetByCodePoints(0, i);
			System.out.println("index= "+index);
			cp = s.codePointAt(index);
			if(Character.isSupplementaryCodePoint(cp)){
				System.out.println(cp+" i ="+i);
				i++;
			}
			else
				i++;
		}

 

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics