感谢各位的建议。新版分词器已经发布,整合了二元分词
下载地址:http://download.csdn.net/source/227957
来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。
1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP)
2. 对数量词、地名、路名的优化处理
3. 对未知词汇采用自识别结合二元切分算法,确保搜索召回率
新版IKAnalyzer V2.0.2 Lucene中文分词器下载地址 : http://download.csdn.net/source/236243
V 2.0.2 修订 Bata版对二元切分的缺陷
正向全切分分词器:org.mira.lucene.analysis.IK_CAnalyzer(适合建索引时使用)
正向最大全切分分词器:org.mira.lucene.analysis.MIK_CAnalyzer(适合用户输入检索时使用
字符集问题
对于UTF-8的支持,醉兄可以直接修改 org.mira.lucene.analysis.dict.Dictionary 词典管理类代码,目前是
BufferedReader br = new BufferedReader(new InputStreamReader(is , "GBK"), 512);
改为
BufferedReader br = new BufferedReader(new InputStreamReader(is , "UTF-8"), 512);就OK了,当然啦字典文件要先进行编码转化啊,别忘了哦!
分享到:
相关推荐
ik分词器tar包 7.10.2
ik分词器7.17.10
elasticsearch7.8.0版本的IK分词器
luke-all是查询lucense生成索引文件的工具,加入IK分词器,更好的支持中文查询
IK分词器在是一款基于词典和规则的中文分词器。这里的IK分词器是独立于Elasticsearch、Lucene、Solr,可以直接用在java代码中的部分。实际工作中IK分词器一般都是集成到Solr和Elasticsearch搜索引擎里面使用。 IK...
Elasticsearch 7.6.2 已集成ik分词器 解压后运行bin目录下,elasticsearch.bat文件
多个版本ik分词器源码
solr安装ik分词器将jar复制到solr\WEB-INF\lib 中 具体使用:https://mp.csdn.net/postedit
elasticsearch的IK分词器 7.17.16版本,是2023年12月24日的最新版本,方便无法访问github的小伙伴进行下载
elasticsearch默认的分词效果有时候并不满足我们的需求,这将介绍elasticsearch安装ik分词器详解
elasticsearch-analysis-ik-6.6.1为ik分词器最新版本需结合solr使用
elasticserach 7.17.4版本的中文 IK分词器
elasticsearch-analysis-ik 是一个常用的中文分词器,在 Elasticsearch 中广泛应用于中文文本的分析和搜索。下面是 elasticsearch-analysis-ik 分词器的几个主要特点: 中文分词:elasticsearch-analysis-ik 是基于...
"Elasticsearch IK分词器扩展说明" Elasticsearch IK分词器扩展说明是基于Elasticsearch的IK分词器的扩展,旨在实现高效的文本处理和搜索功能。IK分词器是一种基于Java实现的中文分词器,能够对中文文本进行精准的...
maven库中现有的ik分词器只支持低版本的Lucene,想要支持高版本的Lucene,需要重写老版本ik分词器里的部分代码. 下载代码片段后导入项目,在创建分词器的时候把new IKAnalyzer替换为 new IKAnalyzer5x即可。
ik分词器的搭建.
elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip ...
IK分词器源码,可以研究IK分词器原理,也可以修改源码达到自己的业务需求。
1.IK分词器安装包,直接放在ES的plugins文件夹下解压就可以使用。如果需要配置自定义词典,将自己的.dic文件放在IK解压后的config即可,同时在IKAnalyzer.cfg.xml添加扩展词典或自定义的停词词典用英文分号(;)分隔...
最新版solr4.3的IK分词器,中文分词效果良好!对付一般的大众分词没有问题