// if(hasNew)
// {
// writer.deleteAll();
// }
//纠结一个问题,为啥这行不注释就不能正常运行呢
package Java.se.lucene;
import java.io.File;
import java.io.IOException;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.index.CorruptIndexException;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.store.LockObtainFailedException;
//import org.apache.lucene.store.RAMDirectory;
import org.apache.lucene.util.Version;
import org.wltea.analyzer.lucene.IKAnalyzer;
import org.wltea.analyzer.lucene.IKQueryParser;
import org.wltea.analyzer.lucene.IKSimilarity;
public class Searcher {
//创建IK分词器
Analyzer analyzer =new IKAnalyzer();
private static Directory directory=null;
private static String text = "IK Analyzer是一个结合词典分词和文法分词的中文分词开源工具包。" +
"它使用了全新的正向迭代最细粒度切分算法。";
private static IndexReader reader=null;
public Searcher()
{
try {
directory= FSDirectory.open(new File("f:/lucene/Index06/"));
} catch (IOException e) {
e.printStackTrace();
}
// directory= new RAMDirectory();
}
public void index(boolean hasNew)
{
IndexWriter writer=null;
try {
writer=new IndexWriter(directory,new IndexWriterConfig(Version
.LUCENE_36,analyzer));
// if(hasNew)
// {
// writer.deleteAll();
// }
Document doc=null;
doc=new Document();
doc.add(new Field("content", text, Field.Store.YES,Field.Index.ANALYZED) );
writer.addDocument(doc);
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (LockObtainFailedException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}finally
{
if(writer!=null)
{
try {
writer.close();
} catch (CorruptIndexException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
}
}
}
public void search(String query)
{
try {
reader=IndexReader.open(directory);
IndexSearcher searcher=new IndexSearcher(reader);
//在索引中使用IkSimilarity似度评估器
searcher.setSimilarity(new IKSimilarity());
//使用IKQueryParse查询分析器创建Query对象,搜索域为content
Query q=IKQueryParser.parse("content",query);
//搜索相关度最高的五条记录
TopDocs tds=searcher.search(q,10);
ScoreDoc[] sd=tds.scoreDocs;
System.out.println(tds.totalHits);
for(int i=0;i<tds.totalHits;i++){
System.out.println("sduyfusfuah");
Document document=searcher.doc(sd[i].doc);
System.out.println(document.toString());
}
searcher.close();
} catch (IOException e) {
e.printStackTrace();
}
}
public void check() throws IOException{ //检查索引是否被正确建立(打印索引)
//Directory directory = FSDirectory.open(new File("f:/lucene/Index06/"));//创建directory,其储存方式为在
IndexReader reader = IndexReader.open(directory);
System.out.println(reader.numDocs());
for(int i = 0;i<reader.numDocs();i++){
System.out.println(reader.document(i));
}
reader.close();
}
public static void main(String[] args) throws IOException {
new Searcher().check();
}
}
package Java.se.lucene;
import org.junit.Before;
import org.junit.Test;
public class Test_Analyzer{
private static Searcher ps=null;
@Before
public void init()
{
ps=new Searcher();
}
@Test
public void test_index()
{
ps.index(true);
}
@Test
public void test_search01()
{
ps.search("中文");
System.out.println("---------------------------");
}
}
分享到:
相关推荐
maven库中现有的ik分词器只支持低版本的Lucene,想要支持高版本的Lucene,需要重写老版本ik分词器里的部分代码. 下载代码片段后导入项目,在创建分词器的时候把new IKAnalyzer替换为 new IKAnalyzer5x即可。
Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器 Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器Lucene IK Analyzer 3.0 Lucene的IK Analyzer 3.0 中文分词器
这里的IK分词器是独立于Elasticsearch、Lucene、Solr,可以直接用在java代码中的部分。实际工作中IK分词器一般都是集成到Solr和Elasticsearch搜索引擎里面使用。 IK分词采用Java编写。 IK分词的效果主要取决于词库,...
lucene 所有jar包 包含IKAnalyzer分词器
适合Lucene5.x的IKAnalyzer-5.0分词器的jar包,重写了前面版本的IKAnalyzer,我已经试过,可以使用。
lucene3.5 + ik中文分词器例子,可从网页抓取输出流,并通过关键字查询相关文件 java ,亲自测试可以使用
Lucene4.7+IK Analyzer中文分词入门教程
Ik中分分词器介绍,可用于lucene4.0
ik分词器2012和lucene的资源和jar包以及lucene索引查看工具
IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版... 在 2012 版本中,IK 实现了简单的分词歧义排除算法,标志着 IK 分词器从单纯的词典分词向模拟语义分词衍化。
提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本
使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar 具体操作如下: 引用 1.在/opt/cloudera/parcels/CDH/lib/...
Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级...
lucene3.5 IKAnalyzer3.2.5 实例中文分词通过,目前在网上找的lucene 和IKAnalyzer 的最新版本测试通过。内含:示例代码,以及最新jar包。 lucene lucene3.5 IKAnalyzer IKAnalyzer3.2.5 jar 中文 分词
IKAanalyzer2.0.2源代码 博文链接:https://linliangyi2007.iteye.com/blog/165287
IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始...新版本的IK Analyzer 3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。
IK分词器集成lucene4.5使用方法 在test 包内说明详细直观 内附IK源码
lucene6.6中适配的拼音分词jar包以及ik中文分词jar包,以及自定义的分词词组包和停词包,可以实现lucene建立索引时进行拼音和中文的分词。
基于ik动态词库分词实现--无需重启服务