开源 Java 中文分词器 Ansj 作者孙健专访

2012-11-05 编辑 wangguo 评论(226条) 有168511人浏览

Ansj 分词 Java ictclas

声明：ITeye精华文章的版权属于ITeye网站所有，严禁任何网站转载本文，否则必将追究法律责任！

Ansj 是一个开源的 Java 中文分词工具，基于中科院的 ictclas 中文分词算法，比其他常用的开源分词工具（如mmseg4j）的分词准确率更高。

在线演示：http://ansj.sdapp.cn/demo/seg.jsp
官网地址：http://www.ansj.org/
Github地址：https://github.com/ansjsun/ansj_seg

我们本期采访了Ansj的作者孙健，请他为大家详细介绍一下这个分词工具。

ITeye期待并致力于为国内优秀的开源项目提供一个免费的推广平台，如果你和你的团队希望将自己的开源项目介绍给更多的开发者，或者你希望我们对哪些开源项目进行专访，请告诉我们，发站内短信给ITeye管理员或者发邮件到webmaster@iteye.com即可。

先来个自我介绍吧！

孙健，胸无大志，没想过创业，没想过发财，只想高高兴兴写两行代码，做了近五年Java程序员，写过页面，干过运维，做过人力，忽悠过客户，擅长字符串操作，擅长数据结构和算法。现在主要从事检索、自然语言处理、数据挖掘等方面工作。

介绍一下Ansj！

Ansj中文分词是一款纯Java的、主要应用于自然语言处理的、高精度的中文分词工具，目标是“准确、高效、自由地进行中文分词”，可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域，支持行业词典、用户自定义词典。

上面是客套话，先说明一下Ansj命名的由来吧。本来开始打算叫totoro分词（同事帮忙起的名），最后发现好多厕所中卫生洁具都叫“TOTO” ^_^

正好我注册了Ansj.org域名，于是乎，就叫这个名字吧。

你认为中文分词的难点是什么？

在这里说分词有点老生常谈了。的确，中文分词已经非常成熟了，但是之间有一些问题依旧比较难解。个人认为大致有以下几点吧：

1. 中文歧义的识别

比较出名的一句话“结婚的和尚未结婚的”，如果使用正向最大匹配，容易分成“结婚/的/和尚/未/结婚的”，于是有的学者试图倒过来识别，逆向匹配会大于正向。但是碰到这句“结合成分子时”，采用逆向最大匹配，则会分为“结合/成分/子时”，更有甚者像“咬了猎人的狗”这种语意不明的词语，就更不容易正确分词了。这是中文分词的软肋。下面是些典型的歧义句：

交叉歧义（多种切分交织在一起）：内塔内亚胡说的/确实/在理
组合歧义（不同情况下切分不同）：这个人/手上有痣、我们公司人手
真歧义（几种切分都可以）：乒乓球拍/卖/完了、乒乓球/拍卖/完了

2. 实体名识别

这个是中文分词遇到的最大的难点，也是最最紧迫的。实体名识别包括人名识别、地名识别、机构名识别，还包括有监督识别和无监督识别。有监督的还好，无监督基本是无解的，比如“王大力发球”是“王大力”还是“大力发球”，一般人都难以识别。

3. 新词热词发现

目前常用的新词发现还是一个比较有研究性的课题，虽然有些论文在准确率很高，但是大多是封闭测试，这意味着结果很难应用到实际工程中。目前Ansj采用的新词发现方式比较简单，采用了高频词的匹配方式，不使用规则，用统计重复串识别新词，根据词性去掉干扰词，虽然有一定的效果，但还是差强人意。

4. 颗粒度问题

这个就是一个规则探讨的问题了，比如“北京大学”是“北京”+“大学”还是“北京大学”，人各有志，就连同一个人不同时间的标注也有可能是有区别的，虽然这个问题严格上来说不属于技术问题，但是对分词结果的评测却有着很大的关系，Ansj采用“能识别就识别”的策略方针，所以在真正R值的时候偏低，总之一句话，适合学术的不一定适合工业，反之亦然。

简单介绍一下Ansj分词用到的算法，其分词原理是什么？

Ansj并非我创新，可以说是一个ictclas的Java版本，基本原理一致，只不过在分词优化算法上做了一些改进。

该算法实现分词有以下几个步骤：

全切分，原子切分；
N最短路径的粗切分，根据隐马尔科夫模型和viterbi算法，达到最优路径的规划；
人名识别；
系统词典补充；
用户自定义词典的补充；
词性标注（可选）

Ansj分词的准确率大概是多少？

这是我采用人民日报1998年1月语料库的一个测试结果，首先要说明的是这份人工标注的语料库本身就有错误。

P（准确率）：0.984887218571267
R（召回率）：0.9626488103178712
F（综合指标F值）：0.9736410471396494

在歧义、未登录词问题上，Ansj表现怎样？

歧异方面的处理方式自我感觉还可以，基于“最佳实践规则+统计”的方式，虽然还有一部分歧异无法识别，但是已经完全能满足工程应用了。

至于未登录词的识别，目前重点做了中文人名的识别，效果还算满意，识别方式用的“字体+前后监督”的方式，也算是目前我所知道的效果最好的一种识别方式了。

Ansj的性能如何？

在我的测试中，Ansj的效率已经远超ictclas的其他开源实现版本。

核心词典利用双数组规划，每秒钟能达到千万级别的粗分。在我的MacBookAir上面，分词速度大约在300w/字/秒，在酷睿i5+4G内存组装机器上，更是达到了400w+/字/秒的速度。

如何添加自定义词典？

Ansj已经实现了用户自定义词典的动态添加删除，当然，也支持从文件加载词典。

从硬盘加载用户自定义词典的方法：

用户自定义词典默认路径：项目目录/library/userLibrary/userLibrary.dic

格式为：[自定义词] [词性] [词频]，如：csdn创新院 userDefine 1000，中间用TAB键隔开

原分词结果：[csdn，创新，院，是，一个，好，公司]

增加词典后：[csdn创新院，是，一个，好，公司]

详细内容见：用户自定义词典的添加

用户自定义词典的动态添加删除方法见：用户自定义词典的动态添加删除Demo

你在开发过程中，遇到哪些困难？

最大的困难是训练样本和语料库的不足，遗憾国内没有共享，大多数都是收费的，而且好贵。

你认为Ansj还需要在哪些方面进行完善？

我打算下一版的改进将围绕未登录词进行，采用crf来做新词的识别。当然随着系统的庞大，每次修改都要考虑效率内存占用。

虽然已经着手开始进行中，但是进展一直不快。有兴趣的同学可以多提意见，可以通过Github参与到该项目中，让我们做一个真正的Java版的高准确率分词。

Github地址：https://github.com/ansjsun/ansj_seg

查看图片附件

分享到：

评论共 226 条

136 楼 violet0925 2013-06-03 14:30

你好，我想请教一下为什么我在自定义词典/library/userLibrary/userLibrary.dic中添加的词根本不起作用啊，给的例子里面用户新增的词也只是一种临时的存储吧，并没有加入到字典中。

135 楼 ansjsun 2013-05-30 10:56

345542875 写道

英语转换成汉语的方法时？

不支持......那是翻译该干的事情吧..不能抢别人饭碗

134 楼 345542875 2013-05-30 09:46

英语转换成汉语的方法时？

133 楼 ansjsun 2013-05-29 17:20

345542875 写道

请问支持英文转换成中文吗？比如输入mosuo，转换后是摸索或者摩挲

不支持......那是输入法该干的事情吧..不能抢别人饭碗

132 楼 345542875 2013-05-29 16:52

请问支持英文转换成中文吗？比如输入mosuo，转换后是摸索或者摩挲

131 楼 x541211190 2013-04-14 14:04

ansjsun 写道

x541211190 写道

1.你说的我明白，我把项目放在web上，但是它会有“Exception in thread "ContainerBackgroundProcessor[StandardEngine[Catalina]]" java.lang.OutOfMemoryError: Java heap space”异常，因为如果你的WEB APP下都用了第三方jar, 其大小超过了jvm默认的大小(4M)那么就会产生此错误信息。这个怎么办？
2.我想把它放在web上，输入一行字，然后后台分词后，显示在html网页上，就像“在线测试”一样，只不过放在我的项目里而已。请赐教

这是内存溢出了..你得调整tomcat的内存大小...

你要的效果是这样的吧 http://demo.ansj.org

把邮箱给我我发你邮箱算了

541211190@qq.com

130 楼 ansjsun 2013-04-14 13:02

x541211190 写道

这是内存溢出了..你得调整tomcat的内存大小...

你要的效果是这样的吧 http://demo.ansj.org

把邮箱给我我发你邮箱算了

129 楼 x541211190 2013-04-14 00:36

ansjsun 写道

x541211190 写道

ansjsun 写道

x541211190 写道

有没有jsp版的源码，没有的话本地版也行，研究分词很长时间了，真心想研究一下您这个，请发我邮箱541211190@qq.com

我原来一直用的中科院分词，最近看到了您的这款，觉得不错，所以想弄个java web版本的，在eclipse中tomcat服务器上能运行的，如果您有的话可不可以给看一下项目部署及源码。邮箱541211190@qq.com

哦....web版啊....

来这里下载最新的jar
https://github.com/ansjsun/ansj_seg/tree/master/dist

然后放到WEB-INF/lib目录中

就ok了

你可以在你程序的任意地方调用

List all = ToAnalysis.paser([分词的字符串]) ;

和普通java调用一样...

如果你要加载用户自定义词典

看这里..
https://github.com/ansjsun/ansj_seg/wiki/%E7%94%A8%E6%88%B7%E8%87%AA%E5%AE%9A%E4%B9%89%E8%AF%8D%E5%85%B8%E8%B7%AF%E5%BE%84%E8%AE%BE%E7%BD%AE

Test文件夹我在本地测试过了，效果不错，但Src里的那些怎么运行不了，请指教？

Src的那些应该是完整版的吧？

你不是做java的吧...
src是源码..你要用..直接
来这里
https://github.com/ansjsun/ansj_seg/tree/master/dist

下载个jar就可以用了不需要src

128 楼 ansjsun 2013-04-13 20:15

x541211190 写道

ansjsun 写道

x541211190 写道

有没有jsp版的源码，没有的话本地版也行，研究分词很长时间了，真心想研究一下您这个，请发我邮箱541211190@qq.com

Test文件夹我在本地测试过了，效果不错，但Src里的那些怎么运行不了，请指教？

Src的那些应该是完整版的吧？

你不是做java的吧...
src是源码..你要用..直接
来这里
https://github.com/ansjsun/ansj_seg/tree/master/dist

下载个jar就可以用了不需要src

127 楼 x541211190 2013-04-13 19:29

ansjsun 写道

x541211190 写道

有没有jsp版的源码，没有的话本地版也行，研究分词很长时间了，真心想研究一下您这个，请发我邮箱541211190@qq.com

Test文件夹我在本地测试过了，效果不错，但Src里的那些怎么运行不了，请指教？

Src的那些应该是完整版的吧？

126 楼 ansjsun 2013-04-13 11:50

x541211190 写道

有没有jsp版的源码，没有的话本地版也行，研究分词很长时间了，真心想研究一下您这个，请发我邮箱541211190@qq.com

125 楼 x541211190 2013-04-13 10:29

x541211190 写道

有没有jsp版的源码，没有的话本地版也行，研究分词很长时间了，真心想研究一下您这个，请发我邮箱541211190@qq.com

124 楼 ansjsun 2013-04-12 20:31

x541211190 写道

有没有jsp版的源码，没有的话本地版也行，研究分词很长时间了，真心想研究一下您这个，请发我邮箱541211190@qq.com

你确定研究分词很长时间了么..分词和jsp不沾边的..亲...
https://github.com/ansjsun/ansj_seg 这里能下载源码不过我真不会用jsp写这个

123 楼 x541211190 2013-04-12 17:42

有没有jsp版的源码，没有的话本地版也行，研究分词很长时间了，真心想研究一下您这个，请发我邮箱541211190@qq.com

122 楼 ansjsun 2013-03-29 11:18

小网客写道

网址不能访问了

好了...你再试试..免费空间,不稳定呵呵

121 楼小网客 2013-03-28 16:56

网址不能访问了

120 楼 java__eye 2013-03-14 11:43

这个支持不支持获取关键呀？

119 楼 ansjsun 2012-11-17 16:12

song_in_china 写道

AnsjAnalysis 作者你的这个类在哪？我把这里的俩个lucene插件jar都到进入了还是没找到，你玩我们呢啊

lucene_32.jar
里面org.ansj.lucene3.AnsjAnalysis.java

肯定定有的.....你没把jar加入到环境变量吧??或者你看看项目里面是不是有错误的jar

118 楼 song_in_china 2012-11-17 15:34

AnsjAnalysis 作者你的这个类在哪？我把这里的俩个lucene插件jar都到进入了还是没找到，你玩我们呢啊

117 楼 song_in_china 2012-11-17 15:27

如果要结合lucene怎么用？

116 楼 tulip11088 2012-11-13 00:01

115 楼 ffychina 2012-11-12 18:35

我下载了源码在本地跑了一下测试，非常简单，很好用。我对分词并不熟，暂时还没有机会用上，只是想了解一下，谢谢作者的分享。

114 楼 wangguo 2012-11-12 12:36

fyland 写道

我不知道管理员为什么要删除我反驳的帖子，也没有任何消息通知，说删除就删除了！真让人十分反感！如果非要删除，那就一碗水端平，把指责我的帖子也删了！
如果是说歪楼了，那歪楼的评论还有两类没删除：阿谀奉承的（说了几句跟技术讨论毫无关系的好话就走的），还有一类就是指责我没资格的、说我是喷子的、怪我没说好听的，这种跟文章主题毫无关系的，为什么不删除呢？为什么只删我反驳的，不删除先指责我的呢？有这么拉“偏架”的吗？

ok了，到此为止吧
如果有人再发攻击你的帖子，或者是语言争论的帖子，一概删除
你也不要再发类似帖子了，否则，也一概删除
请把讨论对象放在Ansj上

113 楼 fyland 2012-11-12 12:02

112 楼 linliangyi2007 2012-11-12 11:33

lection.yu 写道

linliangyi2007 写道

哈哈，终于看到又一个新的开源分词器了，表示很兴奋！向楼主学习！

不过之前建议先把“语言之争”的所有相关回复删了吧，第一，是严重歪楼了，第二，这样的讨论毫无意义，且严重影响对主题的讨论啊

中文分词的专业人士林老师也来了啊。这次终于高手交流了。我用的是您的智能分词2012

折杀我也！
跟楼主这个“科班”算法相比，偶的是草根“山寨”算法，哈哈！

111 楼 lection.yu 2012-11-12 11:03

linliangyi2007 写道

中文分词的专业人士林老师也来了啊。这次终于高手交流了。我用的是您的智能分词2012

110 楼 linliangyi2007 2012-11-12 10:21

109 楼 song_in_china 2012-11-10 00:53

ansjsun 写道

song_in_china 写道

孙健能不能指导一下我怎么看源码，行吗，谢谢，非常感兴趣

.......主要看 ToAnalysis.java 这个类..其中有很多技术细节..比较专..说实话..ictclas算法本来就有点天书的味道...如果你想看原理..还得了解 .hmm和vterbi算法..和ngram语义模型..如果你想看热闹..就看看..tree-split..在我的git里面有...那个代码简单..我觉得是个数据结构的经典..

谢谢你的回复。你给我留个邮箱或者什么的我再联系你,我的是1738042258@qq.com 你给我send一个字就知道了

108 楼 ansjsun 2012-11-09 21:49

song_in_china 写道

孙健能不能指导一下我怎么看源码，行吗，谢谢，非常感兴趣

107 楼 ansjsun 2012-11-09 21:45

orange.lpai 写道

复旦NLP能把这几个识别出来了，我研究下它的源码看看！

{微信=100, 王道=15, 乳量=7, 识别=7, 泰国=0}
是的我感觉他那个句法分析很棒..效果很酷..好好研究..给我提交代码啊

« 上一页 1 2 3 4 5 6 7 8 下一页 »

发表评论

您还没有登录,请您登录后再发表评论

开源 Java 中文分词器 Ansj 作者孙健专访

声明：ITeye精华文章的版权属于ITeye网站所有，严禁任何网站转载本文，否则必将追究法律责任！

目 录 [ - ]

先来个自我介绍吧！

介绍一下Ansj！

你认为中文分词的难点是什么？

简单介绍一下Ansj分词用到的算法，其分词原理是什么？

Ansj分词的准确率大概是多少？

在歧义、未登录词问题上，Ansj表现怎样？

Ansj的性能如何？

如何添加自定义词典？

你在开发过程中，遇到哪些困难？

你认为Ansj还需要在哪些方面进行完善？

136 楼 violet0925 2013-06-03 14:30

135 楼 ansjsun 2013-05-30 10:56

134 楼 345542875 2013-05-30 09:46

133 楼 ansjsun 2013-05-29 17:20

132 楼 345542875 2013-05-29 16:52

131 楼 x541211190 2013-04-14 14:04

130 楼 ansjsun 2013-04-14 13:02

129 楼 x541211190 2013-04-14 00:36

128 楼 ansjsun 2013-04-13 20:15

127 楼 x541211190 2013-04-13 19:29

126 楼 ansjsun 2013-04-13 11:50

125 楼 x541211190 2013-04-13 10:29

124 楼 ansjsun 2013-04-12 20:31

123 楼 x541211190 2013-04-12 17:42

122 楼 ansjsun 2013-03-29 11:18

121 楼 小网客 2013-03-28 16:56

120 楼 java__eye 2013-03-14 11:43

119 楼 ansjsun 2012-11-17 16:12

118 楼 song_in_china 2012-11-17 15:34

117 楼 song_in_china 2012-11-17 15:27

116 楼 tulip11088 2012-11-13 00:01

115 楼 ffychina 2012-11-12 18:35

114 楼 wangguo 2012-11-12 12:36

113 楼 fyland 2012-11-12 12:02

112 楼 linliangyi2007 2012-11-12 11:33

111 楼 lection.yu 2012-11-12 11:03

110 楼 linliangyi2007 2012-11-12 10:21

109 楼 song_in_china 2012-11-10 00:53

108 楼 ansjsun 2012-11-09 21:49

107 楼 ansjsun 2012-11-09 21:45

发表评论

相关推荐

目录 [ - ]

121 楼小网客 2013-03-28 16:56