`

发布 IK Analyzer 3.2.8 for Lucene3.X

    博客分类:
  • Java
阅读更多

IK Analyzer 3.2.8版本修订 

  • 1.优化了英文字符处理,支持如:C++ 等带符号单词输出
  • 2.简化了数词处理,使输出结果更符合用户观感
  • 3.改进了最大词长切分,使输出结果更符合用户观感
  • 4.性能优化,目前IK分词器的速度为约85万字/秒(1600K字节/S)
  • 5.新增IK简易查询表达式,简化用户使用



以下对新增的查询表达式做详细说明: 

   IK3.2.8版本为简化用户对查询逻辑的处理,提供了基于表达式的搜索逻辑处理。它与Lucene自带表达式的不同之处,在于它采用了IKQueryParser对中文分词歧义处理的算法。相对Lucene QueryParser而言,用它生成的Query对象也许更能命中搜索结果。 

表达式样例: 

id='1231' && (title:'文档标题'|| content:'内容') – author='helloworld'
 

  • 1.表达式使用 属性名<->属性值 键值对的形式,属性值使用”’”单引号标识。
  • 2.在键值对中使用 “=”等号,表示对该属性的精确搜索(不分词),适用于对ID、编号、分类等精确值属性搜索;使用“: ”冒号表示对属性的模糊搜索(分词搜索),适用于文本内容的全文搜索。
  • 3.在使用“: ”时,连续的搜索关键字将解析为 AND 逻辑,如果关键字中带有空格,这解析为OR逻辑。如:title:'文档标题' 表示搜索title中同时包含“文档”AND“标题“的数据,title:'文档_标题' 表示搜索title中包含“文档”OR“标题“。(这个例子中,我们默认你使用的IK分词器能将”文档标题“切分为”文档“和”标题“两个词)
  • 4.表达式支持“&&”与 “||” 或“-”非的逻辑操作,以及“( )”括号优先级定义。注意“-”非逻辑不能单独使用,即 “– author='helloworld'” 是非法表达式。
  • 5.目前就是这么简单,暂不支持更复杂的搜索逻辑:).
下载地址: 

IK分词器3.2.8发布包 

IK分词器3.2.8源码包 

PS:如果您使用的是Solr1.3或者v2.9之前的Lucene,请下载IK Analyzer3.1.6GA使用! IK Analyzer3.2.X仅支持Lucene3.0以上版本。 

分词效果示例 
IK Analyzer 3.2.8版本支持 细粒度切分 和 最大词长切分,以下是两种切分方式的演示样例。 
文本原文1: 
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了3个大版本。 

最大词长分词结果: 
引用
ikanalyzer | 是 | 一个 | 开源 | 的 | 基于 | java | 语言 | 开发 | 的 | 轻量级 | 的 | 中文 | 分词 | 工具包 | 从 | 2006 | 年  | 12 | 月 | 推出 | 1.0 | 版 | 开始 | ikanalyzer | 已经 | 推出 | 出了  |  3  |  个  |  大  |  版本

最细粒度分词结果: 
引用
ikanalyzer | 是 | 一个 | 一 | 个 | 开源 | 的 | 基于 |  java  | 语言 | 开发 | 的 | 轻量级 | 量级 | 的 | 中文 | 分词 | 工具包 | 工具 | 从 | 2006 | 年  | 12 | 月 | 推出 | 1.0 | 版 | 开始 | ikanalyzer | 已经 | 推出 | 出了  |  3  |  个  |  大  |  版本


文本原文2: 
作者博客:linliangyi2007.iteye.com   电子邮件:linliangyi2005@gmail.com 

最大词长分词结果: 
引用
作者 | 博客 | linliangyi2007.iteye.com | 电子邮件 | linliangyi2005@gmail.com

最细粒度分词结果: 
引用
作者 | 博客 | linliangyi2007.iteye.com | linliangyi | 2007 | javaeye | com | 电子邮件 | linliangyi2005@gmail.com | linliangyi | 2005 | gmail | com


文本原文3 
古田县城关六一四路四百零五号 

最大词长分词结果: 
引用
古田县 |  县城  |  城关 | 六一四  | 路 | 四百零五 | 号

最细粒度分词结果: 
引用
古田县 | 古田 |  县城 |  城关 |  六一四 | 六一 | 四 | 路 | 四百零五 | 四 | 百 | 零 | 五 | 号


文本原文4 
曙光天阔 I620r-G /A950r-F 夏普SH9020C 

最大词长分词结果: 
引用
曙光 | 天 | 阔 | i620r-g | a950r-f | 夏普 | sh9020c

最细粒度分词结果: 
引用
曙光 | 天 | 阔 | i620r-g | i | 620 | r | g | a950r-f | a | 950 | r | f | 夏普 | sh9020c | sh | 9020 | c

分享到:
评论

相关推荐

    IKAnalyzer3.2.8 源码

    IKAnalyzer3.2.8分词器 源码,用户lucene索引开发中

    Solr3.6+IKAnalyzer3.2.8分词安装部署

    Solr是一个全文检索服务器,基于Lucene3.5开发的,我们可以在solr的基础上进行定制化的开发。新手学习记录了学习过程为后来者提供个参考吧。

    IKAnalyzer3.2.8

    IKAnalyzer是中国人自己开发的功能强大分词器,弥补了lucene自带的分词器的不足

    IKAnalyzer-3.2.8.jar

    IK Analyzer 3.2.8特性 采用了特有的“正吐迭代最细粒度切分算法“,支持细粒度和最大词长两种切分模式;具有83万字/秒(1600KB/S)的高速处理能力。 采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等...

    IK Analyzer实现Java lucene中文分词相关资源架包

    IK Analyzer是基于lucene实现的分词开源框架 需要在项目中引入: IKAnalyzer.cfg.xml IKAnalyzer2012.jar lucene-core-4.3.0.jar stopword.dic

    Apache Lucene全文检索和IKAnalyzer分词工具类

    说明:依赖jar包:lucene-core-2.3.2.jar、IKAnalyzer3.2.8.jar。 一、LuceneUtil 工具类代码: package com.zcm.lucene; import java.io.File; import java.io.IOException; import java.io.StringReader; import...

    Lucene使用

    IKAnalyzer分词 2012版不支持,采用3.2.8版 在使用2012版时异常:ClassNotFoundException: org.apache.lucene.analysis.tokenattributes.CharTermAttribute 庖丁分词 使用 paoding-analysis-2.0.4-beta.zip 版时...

    全文检索所用jar包3.6版本

    IKAnalyzer3.2.8.jar lucene-analyzers-3.5.0.jar lucene-core-3.6.1.jar lucene-highlighter-3.5.0.jar lucene-memory-3.5.0.jar

    Lucene开发所需其他架包和中文分词器

    Lucene开发所需其他架包和中文分词器(solr3.5+IKAnalyzer3.2.8),没有加入Lucene包,需要可去http://archive.apache.org/dist/lucene/java/4.10.3/下载相应包。

    springmvc 各种jar包

    28,IKAnalyzer-3.2.8.jar 29,im4java-1.4.0.jar 30,jackson-annotations-2.1.4.jar 31,jackson-core-2.1.4.jar 32,jackson-databind-2.1.4.jar 33,javassist-3.15.jar 34,jaxen-1.1.1.jar 35,jaxme-api-0.3....

Global site tag (gtag.js) - Google Analytics