- 浏览: 1003546 次
- 性别:
- 来自: 福州
最新评论
-
guanxin2012:
大神,您好。非常感谢您贡献了IKExpression。我们现在 ...
分享开源表达式解析器IK-Expression2.0 -
qqgigas:
LZ,public boolean createUser(LD ...
Sun Directory Server/LDAP学习笔记(二)——API说明及代码样例 -
gao_shengxian:
Hibernate: update T_GX_TEST set ...
优雅Java编程 之 使用Hibernate存储Oracle Spatial对象 -
a78113534:
感谢大神,在安卓里面调用成功了。
发布IK Expression开源表达式解析器 V2.1.0 -
majiedota:
加油
来自开源支持者的第一笔捐赠
IK Analyzer 3.2.3版本修订
在3.2.0版本基础上,更新如下:
1.优化词典匹配算法,将IK分词器速度提高至80万字/秒
2.添加对韩文、日文的支持,采用单字切分
3.增加IKQueryParser的 setMaxWordLength 方法,使其支持最大词长切分
PS:如果您使用的是Solr1.3或者v2.9之前的Lucene,请下载IK Analyzer3.1.6GA使用! IK Analyzer3.2.X仅支持Lucene3.0以上版本。
下载地址
IKAnalyzer3.2.3稳定版发布包
IKAnalyzer3.2.3稳定版源代码
下一阶段研发重点是搜索引擎相关,冒似你这个能用在站内搜索吧?中文,拼音支持吗?有空研究下。送上精华。
目前分词不输出拼音,因为考虑到多音字问题。实际上,从接口设计上而言,不应该把拼音搜索方式并进索引,而应该提供拼音suggest更合理
下一阶段研发重点是搜索引擎相关,冒似你这个能用在站内搜索吧?中文,拼音支持吗?有空研究下。送上精华。
有的啊,IK的说明文档都有说明的啊,另外最新版本是3.2.8,请更新
你的Lucene版本不配套
感谢支持
在3.2.0版本基础上,更新如下:
1.优化词典匹配算法,将IK分词器速度提高至80万字/秒
2.添加对韩文、日文的支持,采用单字切分
3.增加IKQueryParser的 setMaxWordLength 方法,使其支持最大词长切分
PS:如果您使用的是Solr1.3或者v2.9之前的Lucene,请下载IK Analyzer3.1.6GA使用! IK Analyzer3.2.X仅支持Lucene3.0以上版本。
下载地址
IKAnalyzer3.2.3稳定版发布包
IKAnalyzer3.2.3稳定版源代码
评论
21 楼
linliangyi2007
2011-04-26
peterwei 写道
linliangyi2007 写道
IK Analyzer 3.2.3版本修订
在3.2.0版本基础上,更新如下:
1.优化词典匹配算法,将IK分词器速度提高至80万字/秒
2.添加对韩文、日文的支持,采用单字切分
3.增加IKQueryParser的 setMaxWordLength 方法,使其支持最大词长切分
PS:如果您使用的是Solr1.3或者v2.9之前的Lucene,请下载IK Analyzer3.1.6GA使用! IK Analyzer3.2.X仅支持Lucene3.0以上版本。
下载地址
IKAnalyzer3.2.3稳定版发布包
IKAnalyzer3.2.3稳定版源代码
在3.2.0版本基础上,更新如下:
1.优化词典匹配算法,将IK分词器速度提高至80万字/秒
2.添加对韩文、日文的支持,采用单字切分
3.增加IKQueryParser的 setMaxWordLength 方法,使其支持最大词长切分
PS:如果您使用的是Solr1.3或者v2.9之前的Lucene,请下载IK Analyzer3.1.6GA使用! IK Analyzer3.2.X仅支持Lucene3.0以上版本。
下载地址
IKAnalyzer3.2.3稳定版发布包
IKAnalyzer3.2.3稳定版源代码
下一阶段研发重点是搜索引擎相关,冒似你这个能用在站内搜索吧?中文,拼音支持吗?有空研究下。送上精华。
目前分词不输出拼音,因为考虑到多音字问题。实际上,从接口设计上而言,不应该把拼音搜索方式并进索引,而应该提供拼音suggest更合理
20 楼
peterwei
2011-04-25
linliangyi2007 写道
IK Analyzer 3.2.3版本修订
在3.2.0版本基础上,更新如下:
1.优化词典匹配算法,将IK分词器速度提高至80万字/秒
2.添加对韩文、日文的支持,采用单字切分
3.增加IKQueryParser的 setMaxWordLength 方法,使其支持最大词长切分
PS:如果您使用的是Solr1.3或者v2.9之前的Lucene,请下载IK Analyzer3.1.6GA使用! IK Analyzer3.2.X仅支持Lucene3.0以上版本。
下载地址
IKAnalyzer3.2.3稳定版发布包
IKAnalyzer3.2.3稳定版源代码
在3.2.0版本基础上,更新如下:
1.优化词典匹配算法,将IK分词器速度提高至80万字/秒
2.添加对韩文、日文的支持,采用单字切分
3.增加IKQueryParser的 setMaxWordLength 方法,使其支持最大词长切分
PS:如果您使用的是Solr1.3或者v2.9之前的Lucene,请下载IK Analyzer3.1.6GA使用! IK Analyzer3.2.X仅支持Lucene3.0以上版本。
下载地址
IKAnalyzer3.2.3稳定版发布包
IKAnalyzer3.2.3稳定版源代码
下一阶段研发重点是搜索引擎相关,冒似你这个能用在站内搜索吧?中文,拼音支持吗?有空研究下。送上精华。
19 楼
linliangyi2007
2011-04-25
cookiejj2010 写道
希望问下 IK如何在分词结果中过滤动词谓词形容词副词这样的内容 只保留名词 非常感谢 我只需要分词功能 正在使用IK_Analyzer
有的啊,IK的说明文档都有说明的啊,另外最新版本是3.2.8,请更新
18 楼
kanny87929
2011-04-25
好东西一定要支持
17 楼
cookiejj2010
2011-04-25
希望问下 IK如何在分词结果中过滤动词谓词形容词副词这样的内容 只保留名词 非常感谢 我只需要分词功能 正在使用IK_Analyzer
16 楼
linliangyi2007
2011-01-10
多多08 写道
我照着敲了一遍,为什么在这一行:
iwriter.addDocument(doc);
报了一个Exception in thread "main" java.lang.NoSuchMethodError: org.apache.lucene.analysis.Token.setTermBuffer(Ljava/lang/String;)V
at org.wltea.analyzer.lucene.IKTokenizer.toToken(IKTokenizer.java:57)
at org.wltea.analyzer.lucene.IKTokenizer.next(IKTokenizer.java:42)
at org.apache.lucene.analysis.TokenStream.next(TokenStream.java:79)
at org.apache.lucene.index.DocumentsWriter$ThreadState$FieldData.invertField(DocumentsWriter.java:1522)
at org.apache.lucene.index.DocumentsWriter$ThreadState$FieldData.processField(DocumentsWriter.java:1412)
at org.apache.lucene.index.DocumentsWriter$ThreadState.processDocument(DocumentsWriter.java:1121)
at org.apache.lucene.index.DocumentsWriter.updateDocument(DocumentsWriter.java:2442)
at org.apache.lucene.index.DocumentsWriter.addDocument(DocumentsWriter.java:2424)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1464)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1442)
at other.IKAnalyzerDemo2.main(IKAnalyzerDemo2.java:52)
急待回复,谢谢
iwriter.addDocument(doc);
报了一个Exception in thread "main" java.lang.NoSuchMethodError: org.apache.lucene.analysis.Token.setTermBuffer(Ljava/lang/String;)V
at org.wltea.analyzer.lucene.IKTokenizer.toToken(IKTokenizer.java:57)
at org.wltea.analyzer.lucene.IKTokenizer.next(IKTokenizer.java:42)
at org.apache.lucene.analysis.TokenStream.next(TokenStream.java:79)
at org.apache.lucene.index.DocumentsWriter$ThreadState$FieldData.invertField(DocumentsWriter.java:1522)
at org.apache.lucene.index.DocumentsWriter$ThreadState$FieldData.processField(DocumentsWriter.java:1412)
at org.apache.lucene.index.DocumentsWriter$ThreadState.processDocument(DocumentsWriter.java:1121)
at org.apache.lucene.index.DocumentsWriter.updateDocument(DocumentsWriter.java:2442)
at org.apache.lucene.index.DocumentsWriter.addDocument(DocumentsWriter.java:2424)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1464)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1442)
at other.IKAnalyzerDemo2.main(IKAnalyzerDemo2.java:52)
急待回复,谢谢
你的Lucene版本不配套
15 楼
多多08
2011-01-10
我照着敲了一遍,为什么在这一行:
iwriter.addDocument(doc);
报了一个Exception in thread "main" java.lang.NoSuchMethodError: org.apache.lucene.analysis.Token.setTermBuffer(Ljava/lang/String;)V
at org.wltea.analyzer.lucene.IKTokenizer.toToken(IKTokenizer.java:57)
at org.wltea.analyzer.lucene.IKTokenizer.next(IKTokenizer.java:42)
at org.apache.lucene.analysis.TokenStream.next(TokenStream.java:79)
at org.apache.lucene.index.DocumentsWriter$ThreadState$FieldData.invertField(DocumentsWriter.java:1522)
at org.apache.lucene.index.DocumentsWriter$ThreadState$FieldData.processField(DocumentsWriter.java:1412)
at org.apache.lucene.index.DocumentsWriter$ThreadState.processDocument(DocumentsWriter.java:1121)
at org.apache.lucene.index.DocumentsWriter.updateDocument(DocumentsWriter.java:2442)
at org.apache.lucene.index.DocumentsWriter.addDocument(DocumentsWriter.java:2424)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1464)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1442)
at other.IKAnalyzerDemo2.main(IKAnalyzerDemo2.java:52)
急待回复,谢谢
iwriter.addDocument(doc);
报了一个Exception in thread "main" java.lang.NoSuchMethodError: org.apache.lucene.analysis.Token.setTermBuffer(Ljava/lang/String;)V
at org.wltea.analyzer.lucene.IKTokenizer.toToken(IKTokenizer.java:57)
at org.wltea.analyzer.lucene.IKTokenizer.next(IKTokenizer.java:42)
at org.apache.lucene.analysis.TokenStream.next(TokenStream.java:79)
at org.apache.lucene.index.DocumentsWriter$ThreadState$FieldData.invertField(DocumentsWriter.java:1522)
at org.apache.lucene.index.DocumentsWriter$ThreadState$FieldData.processField(DocumentsWriter.java:1412)
at org.apache.lucene.index.DocumentsWriter$ThreadState.processDocument(DocumentsWriter.java:1121)
at org.apache.lucene.index.DocumentsWriter.updateDocument(DocumentsWriter.java:2442)
at org.apache.lucene.index.DocumentsWriter.addDocument(DocumentsWriter.java:2424)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1464)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1442)
at other.IKAnalyzerDemo2.main(IKAnalyzerDemo2.java:52)
急待回复,谢谢
14 楼
mfkdzhou
2010-08-31
谢谢,楼主有大作,我刚学LUCENE,用IK后发现我想搜索“周杰伦” 输入 "周" 可以找到,输入"杰伦" 可以找到...但是输入"周杰伦" 为什么找不到呢?
13 楼
dilantaya
2010-07-13
lz 的工作对我们很有帮助!
12 楼
bastengao
2010-07-11
支持,支持
11 楼
lym6520
2010-05-18
恩,用你的分词器,很不错,继续努力啊!
10 楼
midstr
2010-05-18
谢谢牛人,正在用IK
9 楼
100Air
2010-05-18
支持楼主,一直用你的分词器!
8 楼
gqf2008
2010-05-18
支持楼主,加油!
7 楼
rentianchou
2010-05-18
我来支持下
6 楼
凯旋人生
2010-05-18
多谢了楼主,接下来的项目会使用IK。
5 楼
ryxxlong
2010-05-18
来支持一下,加油!
4 楼
neptune
2010-05-18
一直用你的分词器,感谢linliangyi2007,加油。
3 楼
tsyouaschen
2010-05-15
希望能早日看到,中英文混合分词!!非常期待
2 楼
linliangyi2007
2010-05-15
tsyouaschen 写道
非常的感谢大牛。。
希望越做越好,我非常的喜欢这个中文分词。
希望越做越好,我非常的喜欢这个中文分词。
感谢支持
发表评论
-
来自开源支持者的第一笔捐赠
2013-01-09 21:15 57142013年1月9号,一个平凡而又不平常的日子! IK中文分词 ... -
发布 IK Analyzer 2012 FF 版本
2012-10-23 17:50 24799首先感谢大家对IK分词器的关注。 最近一段时间正式公司事务最 ... -
发布 IK Analyzer 2012 版本
2012-03-08 11:23 35812新版本改进: 支持分词歧义处理 支持数量词合并 词典支持中英 ... -
CSDN发生严重用户账号泄密事件
2011-12-21 19:21 2497之前有在CSDN注册过的兄弟们,注意了。。。 如果你的邮箱, ... -
一个隐形的java int溢出
2011-08-30 09:44 7483故事的背景: 笔者最近在做一个类SNS的项目,其中 ... -
雷军 :互联网创业的葵花宝典
2011-05-04 10:35 3538博主评: 这片博客很短 ... -
Luci-mint站内搜索实测
2011-04-02 16:18 4053关于Luci-mint 服务器硬 ... -
发布 IK Analyzer 3.2.8 for Lucene3.X
2011-03-04 17:49 14122IK Analyzer 3.2.8版本修订 ... -
TIPS - XML CDATA中的非法字符处理
2011-02-17 15:03 3216XML解析过程中,常遇见CDATA中存在非法字符,尤其在火星文 ... -
对Cassandra的初体验
2010-10-13 17:58 8975作为“云计算”时代的架构设计人员而言,不懂K-V库会被 ... -
Spring + iBatis 的多库横向切分简易解决思路
2010-10-11 13:43 92501.引言 笔者最近在做一个互联网的“类SNS”应用,应用 ... -
发布 IK Analyzer 3.2.5 稳定版 for Lucene3.0
2010-09-08 14:43 5717新版本IKAnnlyzer3.2.8已发布! 地址: http ... -
关于Lucene3.0.1 QueryParser的一个错误
2010-05-21 21:33 2077表达式1: 引用 id:"1231231" ... -
windows平台上的nginx使用
2010-01-28 17:13 3346转载自:http://nginx.org/en/docs/wi ... -
发布IKAnnlyzer3.2.0稳定版 for Lucene3.0
2009-12-07 09:27 9446最新3.2.5版本已经推出,http://linliangyi ... -
在Tomcat下以JNDI方式发布JbossCache
2009-12-04 10:57 3772前言: 看过JbossCache的开发手册,发现在Jb ... -
Spring AOP小例子
2009-11-16 10:35 3359PS: 要注明一下,这个是转载滴,之前漏了说鸟,汗死 这里给 ... -
ActiveMQ 5.X 与 Tomcat 集成一(JNDI部署)
2009-11-10 15:15 5597原文地址:http://activemq.apache.org ... -
发布IKAnalyzer中文分词器V3.1.6GA
2009-11-08 23:10 11734IKAnalyzer3.2.0稳定版已经发布,支持Lucene ... -
设计模式感悟
2009-11-07 17:57 3648最近又把以前学习的模式过了一遍,感觉模式不是学出来的,是悟出来 ...
相关推荐
Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器 Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器
中文分词检索IKAnalyzer3.2.3Stable+spring3.0.5+hibernate3.6.7+hibernate-search3.4.0.Final+maven hibernate-search3.4.0用的是lucene3.1
提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。
支持高版本Lucene,包括最新的Lucene7.3.1,本人亲自测试过,绝对能用!
从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。
来自牛人修改的IKAnalyzer,https://github.com/sea-boat/IKAnalyzer-Mirror,亲测Lucene7.2可用
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本
IKAnalyzer2012_u6和lucene-core-3.6.0两个jar包,互相兼容。ik分词的使用方法可以转https://blog.csdn.net/fr961951149/article/details/98736002。
新版本的IKAnalyzer3.0 则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。 1.2IKAnalyzer3.0特性 * 采用了特有的“正向迭代最细粒度切分算法“,具有50万字/秒的高速处理...
由于IKAnalyzer分词器只维护到2012年,仅最高支持lucene4.0,后续高版本中要调用它时,由于各版本源码差异,需对四个类进行修改,本项目中对IKAnalyzer、IKTokenizer、IKQueryExpressionParser、SWMCQueryBuilder...
关于lucene的IKAnalyzer分词器以及与lucene4.3共同使用时发生的问题解决包
Lucene4.7+IK Analyzer中文分词入门教程
solr的IK分词器JAR及配置文件 jar包和配置文件的放置位置不一样,详情可搜索 IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。...org.wltea.analyzer.lucene.IKAnalyzer jar
IK Analyzer安装包包含: 1. 《IKAnalyzer中文分词器V2012使用手册》(即本文档) 2. IKAnalyzer2012.jar(主jar包) 3. IKAnalyzer.cfg.xml(分词器扩展配置文件) 4. stopword.dic(停止词典) 5. LICENSE....
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/> <!--查询时候的分词器--> <analyzer type="query" isMaxWordLength="true" class="org.wltea....
IKanalyzer目前最新版本只支持到lucene4.x、solr4.x,所以我们需要修改一下IKanalyzer的源码,让它支持lucene5.5版本。 这里提供由本人修改的兼容lucene5.x的IK Analyzer版本