`
deepfuture
  • 浏览: 4335354 次
  • 性别: Icon_minigender_1
  • 来自: 湛江
博客专栏
073ec2a9-85b7-3ebf-a3bb-c6361e6c6f64
SQLite源码剖析
浏览量:79443
1591c4b8-62f1-3d3e-9551-25c77465da96
WIN32汇编语言学习应用...
浏览量:68424
F5390db6-59dd-338f-ba18-4e93943ff06a
神奇的perl
浏览量:101548
Dac44363-8a80-3836-99aa-f7b7780fa6e2
lucene等搜索引擎解析...
浏览量:281313
Ec49a563-4109-3c69-9c83-8f6d068ba113
深入lucene3.5源码...
浏览量:14621
9b99bfc2-19c2-3346-9100-7f8879c731ce
VB.NET并行与分布式编...
浏览量:65625
B1db2af3-06b3-35bb-ac08-59ff2d1324b4
silverlight 5...
浏览量:31341
4a56b548-ab3d-35af-a984-e0781d142c23
算法下午茶系列
浏览量:45238
社区版块
存档分类
最新评论

lucene-Nutch分析

阅读更多

分析:Nutch在索引时进行分析所使用的二元语法技术与查询过程中对短语的优化技术结合在一起。

public class NutchExample{

public static void main(String[] args) throws IOException{

NutchDocumentAnalyze analyer=new NutchDocumentAnalyzer();

displayTokenWithDetails(analyzer,"The quick brown fox...");

net.nutch.searcher.QuerynutchQuery=net.nutch.searcher.Query.parse("\"the quick

brown\"");

Query query=QueryTranslator.translate(nutchQuery);

System.out.println("query="+query);

}

}

输出为

1:[the:<WORD>][the-quick:gram]

2:[quick:<WORD>]

3:[brown:<WORD>]

4:[fox:<WORD>]

可见th-quick和the处于相同位置,Nutch没有错过停用词,因为很多进修停用词和后面的词一起表达语意

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics