`
neptune
  • 浏览: 358699 次
  • 性别: Icon_minigender_1
  • 来自: 沈阳
社区版块
存档分类
最新评论

IK分词器

阅读更多
感谢各位的建议。新版分词器已经发布,整合了二元分词
下载地址:http://download.csdn.net/source/227957

来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。

1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP)

2. 对数量词、地名、路名的优化处理

3. 对未知词汇采用自识别结合二元切分算法,确保搜索召回率

新版IKAnalyzer V2.0.2 Lucene中文分词器下载地址 : http://download.csdn.net/source/236243

V 2.0.2 修订 Bata版对二元切分的缺陷

正向全切分分词器:org.mira.lucene.analysis.IK_CAnalyzer(适合建索引时使用)

正向最大全切分分词器:org.mira.lucene.analysis.MIK_CAnalyzer(适合用户输入检索时使用

字符集问题

      对于UTF-8的支持,醉兄可以直接修改 org.mira.lucene.analysis.dict.Dictionary 词典管理类代码,目前是
         BufferedReader br = new BufferedReader(new InputStreamReader(is , "GBK"), 512);
      改为
         BufferedReader br = new BufferedReader(new InputStreamReader(is , "UTF-8"), 512);就OK了,当然啦字典文件要先进行编码转化啊,别忘了哦!
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics