lucene MMAnalyzer 实现中文分词 - 技术代码资料库 - ITeye博客

`

ihuashao

浏览: 4545196 次
性别:
来自: 济南

最近访客更多访客>>

morelily

cyj1988jyc

u012363178

bcrun

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wahahachuang8： GoEasy 实时推送支持IE6-IE11及大多数主流浏览器的 ...
服务器推送技术
pdztop： inffas32.asm(594) inffas32.asm( ...
zlib 在 Visual Studio 2005 下编译失败的解决办法
myangle89：这个方法有效果，但还是绕了一大圈。另外：如果每次这样使用，会造 ...
利用 Spring 与 Log4J 巧妙地进行动态日志配置切换并立即生效
lsw521314：亲，请把用到的包贴出来好么？这版本问题搞得我头大······· ...
lucene MMAnalyzer 实现中文分词
guji528：多命令执行：cmd /k reg delete "H ...
REG Command in Windows XP - Windows XP REG命令的作用和用法

lucene MMAnalyzer 实现中文分词

lucene Apache thread

阅读更多

先上代码：

import java.io.IOException; import jeasy.analysis.MMAnalyzer; /** * 此次测试使用的是Lucene2.2 * @author 李晗 * */ public class Test { public static void main(String[] args) { String text = "休斯敦火箭在客场挑战森林狼本赛季两队交手两次火箭在主客场两战全胜"; MMAnalyzer analyzer = new MMAnalyzer(); try { System.out.println(analyzer.segment(text, " | ")); } catch (IOException e) { e.printStackTrace(); } } }

输出：休斯敦 | 火箭 | 客场 | 挑战 | 森林 | 狼 | 本 | 赛季 | 两队 | 交手 | 两次 | 火箭 | 主 | 客场 | 两战 | 全胜 |

首先应该下载一个 mmanalyzer, 对应的lucene版本应该是1.9到2.4之间，即既不能用老版本也不能用新的版本。真搞不懂lucene怎么维护的这些…… 反正1.4 不适合，3.0 不适合。

如果用不合适的版本会出现error：

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.lucene.analysis.StopFilter.<init>(Lorg/apache/lucene/analysis/TokenStream;Ljava/util/Set;Z)V
at jeasy.analysis.MMAnalyzer.tokenStream(Unknown Source:28)
at jeasy.analysis.lIlllIIIIIllIlII.segment(Unknown Source:209)
at Test.main(Test.java:20)

分享到：

心灵的呼唤 - Cuchulainn | PHP 的字符集编码问题

2010-03-07 10:30
浏览 1327
评论(1)
查看更多

评论

1 楼 lsw521314 2012-07-13

亲，请把用到的包贴出来好么？这版本问题搞得我头大········，谢谢了

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

lucene.NET 中文分词: lucene.NET 中文分词高亮 lucene.NET 中文分词高亮 lucene.NET 中文分词高亮 lucene.NET 中文分词高亮

Lucene.Net+盘古分词C# Demo: Lucene.Net+盘古分词是一个常见的中文信息检索组合。但是随着盘古分词停止更新，与Lucene.Net3.0无法兼容。为了使得大家少走弯路，本人利用Lucene.Net2.9+盘古分词2.3搭建了一个Demo,里面包含了两个模块的源码，方便...

compass2.1.4包+所用lucene包+中文分词器: compass2.1.4包+所用lucene包+中文分词器所用包

lucene.net+盘古分词多条件全文检索并匹配度排序: 使用visual studio 开发的lucene.net和盘古分词实现全文检索。并按照lucene的得分算法进行多条件检索并按照得分算法计算匹配度排序。可以输入一句话进行检索。 lucene.net的版本为2.9.2 盘古分词的版本为2.3.1 并...

Lucene中文分词器包: 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法，42万汉字字符/每秒的处理能力（IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP） 2. 对数量词、地名、路名的...

Lucene.Net+盘古分词Demo: Lucene.Net+盘古分词是一个常见的中文信息检索组合。但是随着盘古分词停止更新，与Lucene.Net3.0无法兼容。为了使得大家少走弯路，本人利用Lucene.Net2.9+盘古分词2.3搭建了一个Demo,里面包含了两个模块的源码，方便...

Lucene的中文分词方法设计与实现: 本文设计实现了一个中文分词模块，其主要研究目的在于寻找更为有效的中文词汇处理方法，提高全文检索系统的中文处理能力．整个模块基于当前最流行的搜索引擎架构 Lucene，实现了带有歧义消除功能的正向最大匹配算法...

lucene6.6+拼音分词+ik中文分词包: lucene6.6中适配的拼音分词jar包以及ik中文分词jar包，以及自定义的分词词组包和停词包，可以实现lucene建立索引时进行拼音和中文的分词。

lucene、solr中文分词器: lucene默认自带的分词器对中文支持并不好，所以对于中文索引的分词器，建议使用第三方开源的中文分词器

MMAnalyzer 分词jar包（lucene-core-2.4.1.jar je-analysis-1.5.3.jar）: Lucene中文分词器中的极易分词组件，包含jeasy.analysis.MMAnalyzer，以及依赖包lucene-core-2.4.1.jar！

运用在lucene中的中文分词算法源码: 运用在lucene中的中文分词算法源码

基于Lucene的中文分词方法设计与实现: 基于Lucene的中文分词方法设计与实现基于Lucene的中文分词方法设计与实现基于Lucene的中文分词方法设计与实现

Lucene与中文分词技术的研究及应用: Lucene与中文分词技术的研究及应用Lucene与中文分词技术的研究及应用Lucene与中文分词技术的研究及应用

Lucene关于几种中文分词的总结: Lucene关于几种中文分词的总结

lucene中文分词器（paoding解牛）: lucene搜索引擎中文分词器，版本2.0.4,强大的中文分词效果在其它中文分词器当中独领风骚

Lucene.Net +盘古分词搜索引擎: Lucene.Net +盘古分词搜索引擎，Lucene.Net2.9.4.版本，vs2012开发，通过实例可以有初步的认识和了解

lucene.net+盘古分词: lucene.net+盘古分词实现全文搜索，数据匹配，关键词高亮显示等等

如何使用Lucene的中文分词搜索: NULL 博文链接：https://gznofeng.iteye.com/blog/1129902

支持lucene4.0的paoding分词: 支持lucene4.0的paoding分词

java lucene 实现分词和词干抽取: 用java实现的，利用了lucene里面的standardAnalyzer分析器实现的分词，可以去停用词，再利用波特算法实现词干提取最后排序和词频统计输出

Global site tag (gtag.js) - Google Analytics