`
fan
  • 浏览: 142483 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

JAVA中的UNICODE与字符集

阅读更多
java采用UNICODE来表示字符,究竟是怎么表示的呢?其实就是int类型与char的对应关系。char强制转化为int的数值,再转换为16进制,就是UNICODE中的代码点,如下代码:
char c = '一';
System.out.println((int)c);
System.out.println(Integer.toHexString(c));
输出结果为:
19968
4e00
以上2个数值,就是这个字符在UNICODE码表中的位置,也就是代码点(code point),是一个抽象的概念,和具体的字符集无关。在java中,char是用2个字节表示的,所以,最多只能支持65536个字符。事实上,UNICODE支持的字符数要大于65536,为此,java中采用了拼2个char的方式,来表示超出65536范围的字符(就是java中提到的增补字符)。具体,可以参考Character相关的javadoc文档。

同样,可以根据一个UNICODE代码点(int数值),来输出对应的UNICODE字符,如下代码:
for (int i=0;i<256;i++) {
    System.out.println((char)i);
}
输出的不可打印字符,用表示了。

ASCII码表及ISO-8859-1中,字符的HTML Entity Code数值都是采用代码点的10进制表示的。

UNICODE官方网址:http://www.unicode.org

待完善...
分享到:
评论

相关推荐

    Java Unicode 和字符集

    Java,每一个软件开发人员绝对必须掌握的关于 Unicode 和字符集的最基础的知识

    java实现十六进制字符unicode与中英文转换示例

    当需要对一个unicode十六进制字符串进行编码时,首先做的应该是确认字符集编码格式,在无法快速获知的情况下,通过一下的str4all方法可以达到这一目的

    电子教材:《Java语言程序设计-统一代码(Unicode)字符集》pdf版

    电子教材:《Java语言程序设计-统一代码(Unicode)字符集》pdf版

    获取Unicode字符集中汉字的拼音和内码

    获取Unicode字符集中汉字的拼音和内码 pdf版 将汉字转化为Unicode字符集

    java基本数据类型和数组,java编制0-255之间的UNICODE编码表

    一、实验目的: 1、掌握数组的定义、初始化与... 1、要求输出UNICODE编码在0-255之间的编码值与相应的字符。 2、使用已知给定的数值初始化一个5X5的二维数组。 3、输出转置前后的数组。 3、实验报告给出完整代码。

    众多字符集编码的区别Unicode向GB2312转换方法说明及示例

    众多字符集编码的区别Unicode向GB2312转换方法说明及包括ASCII码部分及GB2312字符集。 ASCII码部分为128个字符,GB2312字符集为7445个字符。 ASCII码部分不需要用映射表。 GB2312 table可分为4段,每段都是连续的。...

    Linux下Java程序中文乱码问题研究.pdf

    这是因为Java程序使用的字符集与操作系统的字符集不兼容。例如,在Windows操作系统下,Java程序使用的字符集是GBK,而在Linux操作系统下,Java程序使用的字符集是UTF-8。这就导致了中文乱码问题。 解决方法 解决...

    java字符集

    在下面的描述中,将以"中文"两个字为例,经查表可以知道其GB2312编码是"d6d0 cec4",Unicode编码为"4e2d 6587",UTF编码就是"e4b8ad e69687"。注意,这两个字没有iso8859-1编码,但可以用iso8859-1编码来"表示"。

    Java笔记及java2实用教程(第3版例子代码)

    对初学应该有点帮助 Java笔记及java2实用教程(第3版例子代码)

    JAVA字符串操作类CTool.java字符转换类.rar

    JAVA字符串操作类CTool.java字符转换类,此类中收集Java编程中WEB开发常用到的一些工具。为避免生成此类的实例,构造...、显示大文本块处理(将字符集转成ISO)、将数据从数据库中取出后转换*、编码转换 从UTF-8到GBK。。

    各种字符集编码表,包括iso-8859-1,gbk,gb18030, unicode

    各种字符集编码表,包括iso-8859-1,gbk,gb18030, unicode,以及字符集的转换说明(主要是Java国际化的一些字符集转化说明)

    字符编码转换 convert unicode to Shift-JIS

    各类编码转换,从unicode 到 Shift-JIS

    ISOLatin-1字符集[借鉴].pdf

    3. 兼容性:ISOLatin-1字符集与其他字符集如UTF-8、ASCII等具有很好的兼容性。 然而,ISOLatin-1字符集也存在一些缺陷,如: 1. 限制性:ISOLatin-1字符集只能表示拉丁语系文字,无法表示其他语言文字。 2. 不支持...

    编码问题介绍

    在unicode中,字符与代码的映射关 系,就是unicode字符集,称为UCS(Unicode Character Set),每个unicode字符编码称为code point(代码点?)。UTF-8和UTF-16是不同的UCS编码方法,UTF就是UCS Transformation Format...

    zxing.java源码解析-Specialsymbols:一些字符集编码资料收集

    unicode码钱128位为ASCII码,java中可以通过 int offset = 0; String name = “@”; int codePoint = Character.codePointAt(name, offset); codePoint 等于 64 该篇对字符集编码及java开发web开发应用解析较全面 ...

    java中文乱码解决问题

    这是因为在编译 Servlet 类或者 JSP 文件时,如果没有使用 -encoding 参数指定 Java 源程序的编码格式,javac 会获取本地操作系统默认采用的字符集,以该字符集将 Java 源程序转换为 Unicode 编码保存到内存中,然后...

    详解Java中的char型数据

    char型是存储字符的数据类型,它在机器中占16位,范围为0-...在C /C++中,char型采用的是ASCII字符集,宽度为8位,范围为0-255,而Java中char型采用的是Unicode字符集,范围较 ASCII字符集更大,可以表示更多的字符

    高等教育自学考试_课程代码04747_Java语言程序设计(一).pdf

    Java语言使用Unicode字符集,共有65535个字符。Java语言标识符的命名规则是: * 由字母(包括英文字母、下划线字符、美元字符、文字字符)和数字字符组成 * 限定标识符的第一个字符不能是数字字符 * 不能和关键字重名...

    CharsetUtils.java

    /** 7位ASCII字符,也叫作ISO646-US、Unicode字符集的基本拉丁块 */ US_ASCII("US-ASCII","位ASCII字符,也叫作ISO646-US、Unicode字符集的基本拉丁块 "), ISO_8859_1("ISO-8859-1","ISO 拉丁字母表 No.1,也叫作...

    125集专攻JAVA基础 JAVA零基础入门学习视频教程 动力节点JAVA视频教程.txt

    北京动力节点-Java编程零基础教程-053-Java基本语法-Unicode码.avi 北京动力节点-Java编程零基础教程-054-Java基本语法-UTF-8.avi 北京动力节点-Java编程零基础教程-055-Java基本语法-UTF-8的编码格式.avi 北京...

Global site tag (gtag.js) - Google Analytics