IK分词器 - neptune - ITeye博客

`

neptune

浏览: 358699 次
性别:
来自: 沈阳

最近访客更多访客>>

jibaojie

axeon

laozhou

Luther

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

87029274： JDBCAppender 批量存入数据库，源代码写的就是个锤子 ...
把重要的业务日志异步批量写入数据库 LOG4J
zzz_robinson：受益匪浅...很经典
世界少了我，其实无所谓。但我少了我，还剩什么？
jackytang520：你们也有这个问题啊,不过我们当初也是, 老是打印的时候内存溢出 ...
生产环境jvm内存运行1小时,就接近xmx,系统奇慢。大量的jasperreport无法释放。
xurichusheng：当我在jsp页面上输入“<”时，这东西只弹出html标签 ...
Veloeclipse是一个HTML/XML/JSP/Velocity编辑器
neptune： phoenixup 写道给你举个例子，我做过一个应用~~10万 ...
用tomcat做的大中型系统有哪些

IK分词器

博客分类：

其它开源框架

lucene 算法 .net IBM

阅读更多

感谢各位的建议。新版分词器已经发布，整合了二元分词
下载地址：http://download.csdn.net/source/227957

来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。

1. 正向全切分算法，42万汉字字符/每秒的处理能力（IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP）

2. 对数量词、地名、路名的优化处理

3. 对未知词汇采用自识别结合二元切分算法，确保搜索召回率

新版IKAnalyzer V2.0.2 Lucene中文分词器下载地址： http://download.csdn.net/source/236243

V 2.0.2 修订 Bata版对二元切分的缺陷

正向全切分分词器：org.mira.lucene.analysis.IK_CAnalyzer（适合建索引时使用）

正向最大全切分分词器：org.mira.lucene.analysis.MIK_CAnalyzer（适合用户输入检索时使用

字符集问题

      对于UTF-8的支持，醉兄可以直接修改 org.mira.lucene.analysis.dict.Dictionary 词典管理类代码，目前是
         BufferedReader br = new BufferedReader(new InputStreamReader(is , "GBK"), 512);
      改为
         BufferedReader br = new BufferedReader(new InputStreamReader(is , "UTF-8"), 512);就OK了，当然啦字典文件要先进行编码转化啊，别忘了哦！

27212323121.rar (853.2 KB)
下载次数: 271

分享到：

lucene 基础 | Lucene几种中文分词的总结

2008-01-24 10:50
浏览 3758
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

ik分词器tar包 7.10.2: ik分词器tar包 7.10.2

ik分词器7.17.10: ik分词器7.17.10

elasticsearch7.8.0版本的IK分词器: elasticsearch7.8.0版本的IK分词器

lukeall-3.5.0 加 IK分词器: luke-all是查询lucense生成索引文件的工具，加入IK分词器，更好的支持中文查询

elasticsearch-analysis-ik-6.3.1 ik分词器: IK分词器在是一款基于词典和规则的中文分词器。这里的IK分词器是独立于Elasticsearch、Lucene、Solr，可以直接用在java代码中的部分。实际工作中IK分词器一般都是集成到Solr和Elasticsearch搜索引擎里面使用。 IK...

Elasticsearch 7.6.2(已集成ik分词器): Elasticsearch 7.6.2 已集成ik分词器解压后运行bin目录下,elasticsearch.bat文件

多个版本ik分词器源码: 多个版本ik分词器源码

solr ik分词器: solr安装ik分词器将jar复制到solr\WEB-INF\lib 中具体使用：https://mp.csdn.net/postedit

IK分词器elasticsearch-analysis-ik-7.17.16: elasticsearch的IK分词器 7.17.16版本，是2023年12月24日的最新版本，方便无法访问github的小伙伴进行下载

es安装ik分词器: elasticsearch默认的分词效果有时候并不满足我们的需求，这将介绍elasticsearch安装ik分词器详解

solr ik分词器 6.6.1版本: elasticsearch-analysis-ik-6.6.1为ik分词器最新版本需结合solr使用

elasticserach 7.17.4版本的中文 IK分词器: elasticserach 7.17.4版本的中文 IK分词器

7.17.1系列Elasticsearch的elasticsearch-analysis-ik分词器: elasticsearch-analysis-ik 是一个常用的中文分词器，在 Elasticsearch 中广泛应用于中文文本的分析和搜索。下面是 elasticsearch-analysis-ik 分词器的几个主要特点：中文分词：elasticsearch-analysis-ik 是基于...

Elasticsearch IK分词器扩展说明1: "Elasticsearch IK分词器扩展说明" Elasticsearch IK分词器扩展说明是基于Elasticsearch的IK分词器的扩展，旨在实现高效的文本处理和搜索功能。IK分词器是一种基于Java实现的中文分词器，能够对中文文本进行精准的...

高版本Lucene的IK分词器: maven库中现有的ik分词器只支持低版本的Lucene，想要支持高版本的Lucene，需要重写老版本ik分词器里的部分代码. 下载代码片段后导入项目，在创建分词器的时候把new IKAnalyzer替换为 new IKAnalyzer5x即可。

ik分词器文档: ik分词器的搭建.

elasticsearch ik 分词器 zip: elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip ...

IK分词器源码: IK分词器源码，可以研究IK分词器原理，也可以修改源码达到自己的业务需求。

6.8.5IK分词器: 1.IK分词器安装包，直接放在ES的plugins文件夹下解压就可以使用。如果需要配置自定义词典，将自己的.dic文件放在IK解压后的config即可，同时在IKAnalyzer.cfg.xml添加扩展词典或自定义的停词词典用英文分号（;）分隔...

solr4.3的IK分词器: 最新版solr4.3的IK分词器，中文分词效果良好！对付一般的大众分词没有问题

Global site tag (gtag.js) - Google Analytics