Lucene简要笔记

jianwwpro

浏览: 28757 次
性别:
来自: 北京

最近访客更多访客>>

netbug123

laozhaishaozuo

toyzhou

sqlxx

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Java

lucene

一、 Lucene 概念
以索引文件方式存放在磁盘中
二、 Lucene操作
a) 建立索引
i. 实体类，有主ID，还有其他字段
ii. 建立索引库路径 Directory directory = new FSDirectory.open(”./indexDir”);
iii. 建立分词器 Analyzer analyzer = new StandarAnalyzer(Version.LUCENE_30)
iv. 将实体类转为Document doc = new Document();doc.add(new Field(“id”,id,Store.YES, Index.Analyzer))
v. 添加 IndexWriter indexWriter = new IndexWriter(directory,analyzer,MaxFieldLength.LIMITED) ; indexWriter.addDocument(doc)
vi.
b) 搜索
i. 索引库目录
ii. 分词器
iii. 把查询字符转为Query对象QueryParser queryParser = new QueryParser(Version.LUCENE_30,”title”, analyzer)，在哪个字段中搜索。queryParser.parse(搜索内容)
iv. 执行查询，得到中间结果
indexSearcher indexSearcher = new IndexSearcher(directory);
TopDocs topDocs = indexSearcher.search(query, 10)
topDocs.totalHits;
ScoreDoc[] scoreDocs = topDocs.scoreDocs;
v. 处理结果
1. scoreDocs[i].doc;内部编号 indexSearcher.doc(内部编号)
vi. 再将Document转为实体
三、优化
a) 合并文件optimize() .自动合并，默认最小是2，最大是10，setMergeFactor(3)
b) 在内存中加载数据：
启动时，加载：New RAMDirectory(fsDir)
结束时，往内存中写：indexWriter.addIndexsNoOptimize(ramDir);
四、分词器：查询与写入需使用同一个分词器---对于中文，引用外加分词器，IKAnalyzer
a) 排序
i. 默认为，相关度
1. 在添加的时候，doc.setBoost(2F) 1F, 0.5F
ii. 自定义字段排序，类似于order by
1. Sort = new Sort(“id”, SortField.INT,true)
2. 使用indexSearcher.searcher(query, filter, n, sort)
b) 高亮
i. 作用：突出显示关键词，显示生成一段摘要
ii. 配置：
1. 摘要大小，默认小100个字
2. 显示效果的前后缀，默认<b>
3. API用法：
a) 生成并配置一个高亮器
i. Highlighter = new Highligher(new SimpleHTMLFormatter(“<font color=’red’>”,”</font>”), new QueryScorer(query))
b) 使用高亮器进行高亮操作
i. text = Highlighter.getBaseFragment(analyzer, fieldname, text)
c) Doc.getField(“content”).setValue(text);
c) 过滤：Filter 的实现类
i. NumberRangleFilter
d) 各种方式的查询
i. 从使用方式区分：
1. 查询字符串 + QueryParser query：使用查询的语法
2. 直接构建Query对象：构建不同的子类
ii. 从效果上看：
1. 范围查询
2. 关键词查询
a) NumberRangle： id:{ 5 TO 10 }
b) TermQuery：条件title:lucene
c) WildcardQuery：通配符 title:lu*n?
d) MathAllDocsQuery：任何 *:*
e) FuzzQuery(new Term(“title”,”luceneX”, 0.7F))：70% 模糊查询title:luceneX~0.9
f) PhraseQuery：短语查询 title:”lucene ? ? 说明”
i. phraseQuery.add(mew Term(“title”,”lucene”,0));
ii. phraseQuery.add(new Term(“title”, “说明”,3));
iii. phraseQuery.setSlop(5)最多不超过5个
g) BooleanQuery：布尔查询 +*.* +ID:[5 TO 10]
i. booleanQuery.add(qury, Occur.NUST) ....MUST_NOT, SHOULD

五、工具类
a) NumbericUtils
b) DateTools
六、

基于lucene的框架
类似于Hibernate框架，API也一样

分享到：

Java编程对象的序列化介绍 | Tomcat证书生成

2012-02-25 22:57
浏览 1014
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论