中文【汉语拼音】排序

anyitzy

浏览: 10233 次
性别:
来自: 北京

最近访客更多访客>>

jaying007

sky繁星

1572706830_gyx

woodding2008

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2013-05 ( 10)
更多存档...

中文【汉语拼音】排序 java汉字排序 java拼音排序

中文排序－汉语拼音
摘要：中文一般都是按拼音来排序的。但Java中的String类是按Unicode编码存储数据的，因此，String类也是按Unicode编码的大小来排序的。Sun公司提供一个Collator类来重新按不同的规则对字符串排序，但Collator对中文的排序方式只是不严格的拼音排序法。Microsoft的Excel和Sql Server实现了按拼音排序的功能，就比Collator实现的好多了。那如何在Java中实现类似Microsoft的拼音排序的方式呢？

排序的方式主要有两种：一种是拼音，一种是笔画。本文就讲述如何实现这两种不同的比较器(Comparator)。

Unicode 编码中的汉字

Unicode中编码表分为两块，一个是基本的，一个是辅助的。现在的大多数操作系统还不支持Unicode中辅助区域中的文字，如WinXp。
在Java中的字符就是Unicode码表示的。对于Unicode基本区域中的文字，用两个字节的内存存储，用一个char表示，而辅助区域中的文字用4个字节存储，因此辅助区域中的就要用两个char来表示了(表一种蓝色底就是辅助区域中的文字)。一个文字的unicode编码，在Java中统一用codePoint(代码点)这个概念。
中文和日文、韩文一样是表意文字，在Unicode中，中日韩三国(东亚地区)的文字是统一编码的。CJK代表的就是中日韩。在这里，我把这3中文字，都作为汉字处理了。(日语和韩语可能就是从汉语中衍生的吧！)

GB2312编码

GB2312是中华人民共和国最早的计算机汉字编码方式。大概有6000多个汉字，这些汉字是按拼音顺序编码的。这6000多个汉字都是简体中文字。

GBK编码

GB2312的扩展，并兼容GB2312。扩展后的汉字大概有2万多个，其中有简体汉字也有繁体汉字。

分享到：

软件开发7大原则 | java对日期实现排序

2013-05-22 10:45
浏览 1346
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论