`
chenlb
  • 浏览: 689702 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

mmseg4j 中文分词 1.5 版发布

阅读更多
经过几天的开发与调试,新版的 mmseg4j 可以发布了。定为1.5版,是因为变动比较大。

mmseg4j 1.5变更:

  • 使用 sogou 词库,是从 http://www.sogou.com/labs/dl/w.html ,下载的,然后转换下(一行一词)。
  • 把chars.dic文件放到jar里, 我们不需要关心它,当然你在词库目录放这个文件可能覆盖它。
  • 最长匹配遍历调整(基本不受长词的影响)
  • 优化了程序,除去没有必要的数组复制等,性能提升40%
  • ant 在jdk 1.5 下也可以编译(上一版本用了Collections二分查找)

说明:

1、sogou 词库,不是用官方的文件,因为官方的文件有词频等信息,加载比较慢。就把这些信息去了,转换了下,一行一词,并且转换为UTF-8的文件,目前sogou词库有15W多。

2、把上一个版本的 chars.dic 文件隐藏在jar里,这个文件我们基本不需要关心的。如果想自定义,可以修改并把它放到词库目录中覆盖默认的。

3、1.5版做了一些优化,mmseg4j-1.5 版的分词速度simple算法是 1100kb/s左右、complex算法是 700kb/s左右,(测试机:AMD athlon 64 2800+ 1G内存 xp)。经测试是 complex 比IK, MIK, je要快,没 paoding快(900Kb/s左右),simple方式比paoding快。

4、其它:词库默认在./data目录下的words.dic文件,也可以指定其它目录,如

Analyzer analyzer = new ComplexAnalyzer("./sogou");
 


5、solr中的使用方式没变,请看:中文分词 mmseg4j

mmseg4j 可以到 google code下载。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics