java采用UNICODE来表示字符,究竟是怎么表示的呢?其实就是int类型与char的对应关系。char强制转化为int的数值,再转换为16进制,就是UNICODE中的代码点,如下代码:
char c = '一';
System.out.println((int)c);
System.out.println(Integer.toHexString(c));
输出结果为:
19968
4e00
以上2个数值,就是这个字符在UNICODE码表中的位置,也就是代码点(code point),是一个抽象的概念,和具体的字符集无关。在java中,char是用2个字节表示的,所以,最多只能支持65536个字符。事实上,UNICODE支持的字符数要大于65536,为此,java中采用了拼2个char的方式,来表示超出65536范围的字符(就是java中提到的增补字符)。具体,可以参考Character相关的javadoc文档。
同样,可以根据一个UNICODE代码点(int数值),来输出对应的UNICODE字符,如下代码:
for (int i=0;i<256;i++) {
System.out.println((char)i);
}
输出的不可打印字符,用表示了。
ASCII码表及ISO-8859-1中,字符的HTML Entity Code数值都是采用代码点的10进制表示的。
UNICODE官方网址:http://www.unicode.org
待完善...
分享到:
相关推荐
Java,每一个软件开发人员绝对必须掌握的关于 Unicode 和字符集的最基础的知识
当需要对一个unicode十六进制字符串进行编码时,首先做的应该是确认字符集编码格式,在无法快速获知的情况下,通过一下的str4all方法可以达到这一目的
电子教材:《Java语言程序设计-统一代码(Unicode)字符集》pdf版
获取Unicode字符集中汉字的拼音和内码 pdf版 将汉字转化为Unicode字符集
一、实验目的: 1、掌握数组的定义、初始化与... 1、要求输出UNICODE编码在0-255之间的编码值与相应的字符。 2、使用已知给定的数值初始化一个5X5的二维数组。 3、输出转置前后的数组。 3、实验报告给出完整代码。
众多字符集编码的区别Unicode向GB2312转换方法说明及包括ASCII码部分及GB2312字符集。 ASCII码部分为128个字符,GB2312字符集为7445个字符。 ASCII码部分不需要用映射表。 GB2312 table可分为4段,每段都是连续的。...
这是因为Java程序使用的字符集与操作系统的字符集不兼容。例如,在Windows操作系统下,Java程序使用的字符集是GBK,而在Linux操作系统下,Java程序使用的字符集是UTF-8。这就导致了中文乱码问题。 解决方法 解决...
在下面的描述中,将以"中文"两个字为例,经查表可以知道其GB2312编码是"d6d0 cec4",Unicode编码为"4e2d 6587",UTF编码就是"e4b8ad e69687"。注意,这两个字没有iso8859-1编码,但可以用iso8859-1编码来"表示"。
对初学应该有点帮助 Java笔记及java2实用教程(第3版例子代码)
JAVA字符串操作类CTool.java字符转换类,此类中收集Java编程中WEB开发常用到的一些工具。为避免生成此类的实例,构造...、显示大文本块处理(将字符集转成ISO)、将数据从数据库中取出后转换*、编码转换 从UTF-8到GBK。。
各种字符集编码表,包括iso-8859-1,gbk,gb18030, unicode,以及字符集的转换说明(主要是Java国际化的一些字符集转化说明)
各类编码转换,从unicode 到 Shift-JIS
3. 兼容性:ISOLatin-1字符集与其他字符集如UTF-8、ASCII等具有很好的兼容性。 然而,ISOLatin-1字符集也存在一些缺陷,如: 1. 限制性:ISOLatin-1字符集只能表示拉丁语系文字,无法表示其他语言文字。 2. 不支持...
在unicode中,字符与代码的映射关 系,就是unicode字符集,称为UCS(Unicode Character Set),每个unicode字符编码称为code point(代码点?)。UTF-8和UTF-16是不同的UCS编码方法,UTF就是UCS Transformation Format...
unicode码钱128位为ASCII码,java中可以通过 int offset = 0; String name = “@”; int codePoint = Character.codePointAt(name, offset); codePoint 等于 64 该篇对字符集编码及java开发web开发应用解析较全面 ...
这是因为在编译 Servlet 类或者 JSP 文件时,如果没有使用 -encoding 参数指定 Java 源程序的编码格式,javac 会获取本地操作系统默认采用的字符集,以该字符集将 Java 源程序转换为 Unicode 编码保存到内存中,然后...
char型是存储字符的数据类型,它在机器中占16位,范围为0-...在C /C++中,char型采用的是ASCII字符集,宽度为8位,范围为0-255,而Java中char型采用的是Unicode字符集,范围较 ASCII字符集更大,可以表示更多的字符
Java语言使用Unicode字符集,共有65535个字符。Java语言标识符的命名规则是: * 由字母(包括英文字母、下划线字符、美元字符、文字字符)和数字字符组成 * 限定标识符的第一个字符不能是数字字符 * 不能和关键字重名...
/** 7位ASCII字符,也叫作ISO646-US、Unicode字符集的基本拉丁块 */ US_ASCII("US-ASCII","位ASCII字符,也叫作ISO646-US、Unicode字符集的基本拉丁块 "), ISO_8859_1("ISO-8859-1","ISO 拉丁字母表 No.1,也叫作...
北京动力节点-Java编程零基础教程-053-Java基本语法-Unicode码.avi 北京动力节点-Java编程零基础教程-054-Java基本语法-UTF-8.avi 北京动力节点-Java编程零基础教程-055-Java基本语法-UTF-8的编码格式.avi 北京...