关于imdict-chinese-analyzer中文分词模块

summerbell

浏览: 799753 次
性别:
来自: 武汉

最近访客更多访客>>

wangweihuamy

icnd

wyhappiness

玫瑰步道

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Lucene&切分词

算法 Google

CJK中文分词模块是很重要的工具。imdict-chinese-analyzer采用了隐马模型（HMM）进行切词。并得到优于ictclas4j的效果。

但同为隐马模型在中文分词模块中的应用，ictclas4j同imdict-chinese-analyzer还是有很大不同。

imdict-chinese-analyzer的介绍片段如下：

……

中文与西方语言最大的区别就在于语句的词汇之间没有明显的分词界限，但是计算机自然语言处理是按词汇来进行分析的，因此中文分词的效果直接影响中文检索和自然语言处理的准确性。例如： “我购买了道具和服装”，如果采用比较简单的正向最大匹配算法，分词结果是“我购买了道具和服装”，明显偏离了原句的意思；而采用基于HMM的智能分词模型，能够综合分析句子的结构、各个词的频率以及各个词汇之间的跳转频率，从而能产生最优化的分词结果：“我购买了道具和服装”

……

通过介绍和对其代码的初步研究，imdict-chinese-analyzer应该是使用了viterbi算法求出概率最大的观测序列，而不涉及到词性的分析。

ictclas4j似乎是有一个词性的概率转移矩阵。有待进一步确认。

imdict-chinese-analyzer中文分词模块在GoogleCode的地址：

http://code.google.com/p/imdict-chinese-analyzer/

查看图片附件

分享到：

ictclas4j分词模块 | 隐马尔可夫模型中的Viterbi算法zz

2009-05-19 12:00
浏览 3142
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论