一、 Lucene 概念
以索引文件方式存放在磁盘中
二、 Lucene操作
a) 建立索引
i. 实体类,有主ID,还有其他字段
ii. 建立索引库路径 Directory directory = new FSDirectory.open(”./indexDir”);
iii. 建立分词器 Analyzer analyzer = new StandarAnalyzer(Version.LUCENE_30)
iv. 将实体类转为Document doc = new Document();doc.add(new Field(“id”,id,Store.YES, Index.Analyzer))
v. 添加 IndexWriter indexWriter = new IndexWriter(directory,analyzer,MaxFieldLength.LIMITED) ; indexWriter.addDocument(doc)
vi.
b) 搜索
i. 索引库目录
ii. 分词器
iii. 把查询字符转为Query对象QueryParser queryParser = new QueryParser(Version.LUCENE_30,”title”, analyzer),在哪个字段中搜索。queryParser.parse(搜索内容)
iv. 执行查询,得到 中间结果
indexSearcher indexSearcher = new IndexSearcher(directory);
TopDocs topDocs = indexSearcher.search(query, 10)
topDocs.totalHits;
ScoreDoc[] scoreDocs = topDocs.scoreDocs;
v. 处理结果
1. scoreDocs[i].doc;内部编号 indexSearcher.doc(内部编号)
vi. 再将Document转为实体
三、 优化
a) 合并文件optimize() .自动合并,默认最小是2,最大是10,setMergeFactor(3)
b) 在内存中加载数据:
启动时,加载:New RAMDirectory(fsDir)
结束时,往内存中写:indexWriter.addIndexsNoOptimize(ramDir);
四、 分词器:查询与写入需使用同一个分词器---对于中文,引用外加分词器,IKAnalyzer
a) 排序
i. 默认为,相关度
1. 在添加的时候,doc.setBoost(2F) 1F, 0.5F
ii. 自定义字段排序,类似于order by
1. Sort = new Sort(“id”, SortField.INT,true)
2. 使用indexSearcher.searcher(query, filter, n, sort)
b) 高亮
i. 作用:突出显示关键词,显示生成一段摘要
ii. 配置:
1. 摘要大小,默认小100个字
2. 显示效果的前后缀,默认<b>
3. API用法:
a) 生成并配置一个高亮器
i. Highlighter = new Highligher(new SimpleHTMLFormatter(“<font color=’red’>”,”</font>”), new QueryScorer(query))
b) 使用高亮器进行高亮操作
i. text = Highlighter.getBaseFragment(analyzer, fieldname, text)
c) Doc.getField(“content”).setValue(text);
c) 过滤:Filter 的实现 类
i. NumberRangleFilter
d) 各种方式的查询
i. 从使用方式区分:
1. 查询字符串 + QueryParser query:使用查询的语法
2. 直接构建Query对象:构建不同的子类
ii. 从效果上看:
1. 范围查询
2. 关键词查询
a) NumberRangle: id:{ 5 TO 10 }
b) TermQuery:条件title:lucene
c) WildcardQuery:通配符 title:lu*n?
d) MathAllDocsQuery:任何 *:*
e) FuzzQuery(new Term(“title”,”luceneX”, 0.7F)):70% 模糊查询title:luceneX~0.9
f) PhraseQuery:短语查询 title:”lucene ? ? 说明”
i. phraseQuery.add(mew Term(“title”,”lucene”,0));
ii. phraseQuery.add(new Term(“title”, “说明”,3));
iii. phraseQuery.setSlop(5)最多不超过5个
g) BooleanQuery:布尔查询 +*.* +ID:[5 TO 10]
i. booleanQuery.add(qury, Occur.NUST) ....MUST_NOT, SHOULD
五、 工具类
a) NumbericUtils
b) DateTools
六、
基于lucene的框架
类似于Hibernate框架,API也一样
分享到:
相关推荐
lucene使用总结笔记lucene使用总结笔记lucene使用总结笔记lucene使用总结笔记lucene使用总结笔记
传智播客lucene课堂笔记,和大家分享下,就是上课的时候记的
lucene学习笔记,lucene入门必备材料
本人的Lucene2.9学习笔记 本人的Lucene2.9学习笔记 本人的Lucene2.9学习笔记 本人的Lucene2.9学习笔记本人的Lucene2.9学习笔记本人的Lucene2.9学习笔记 本人的Lucene2.9学习笔记
lucene笔记
一些Lucene类的常用方法,初学者可以看一下,来自《开发自己的搜索引擎》一书。
关于lucene开发的工作笔记,详细的介绍了lucene的索引在创建过程中应该主意的一些事项和要求
传智播客Lucene课程课堂笔记
NULL 博文链接:https://kylinsoong.iteye.com/blog/719415
Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎
很好的Lucene学习入门资料。lucene是纯java开发的,支持索引的建立和搜索
lucene 笔记
一、 全文检索的基本概念 (1)、数据总体分为两种:结构化数据和非结构化数据。 结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。 非结构化数据:指不定长或无固定格式的数据,如邮件,word文档等...
第一章 LUCENE基础 2 1.1 索引部分的核心类 2 1.2 分词部分的核心类 2 1.3 搜索部分的核心类 2 第二章 索引建立 3 2.1 创建Directory 3 2.2 创建Writer 3 2.3 创建文档并且添加索引 4 2.4 查询索引的基本信息 5 2.5 ...
lucene学习笔记 1 .txt lucene学习笔记 2.txt lucene学习笔记 3 .txt lucene入门实战.txt Lucene 的学习 .txt Lucene-2.0学习文档 .txt Lucene入门与使用 .txt lucene性能.txt 大富翁全文索引和查询的例子...