一个简单的lucene全文索引的创建及追加过程

tianhewulei

浏览: 24066 次
性别:
来自: 深圳

最近访客更多访客>>

543089122

u014554491

晓风弄月

金色的释怀

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (12)

社区版块

存档分类

lucene 全文检索资讯搜索引擎 Apache

Lucene是一套用于全文检索和搜寻的开放源码程式库，由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口，能够做全文索引和搜寻，在Java开发环境里Lucene是一个成熟的免费开放源代码工具；就其本身而论，Lucene是现在并且是这几年，最受欢迎的免费java资讯检索程式库。人们经常提到资讯检索程式库，就像是搜寻引擎，但是不应该将资讯检索程式库与网搜索引擎相混淆。

下面是一个简单的lucene索引创建及追加的代码

IndexWriter writer = null;
		try{
			File root = new File(indexPath);		
			if (root == null || root.listFiles() == null || root.listFiles().length == 0) {
				System.out.println("----------begin index-----------");
				writer = new IndexWriter(indexPath, new StandardAnalyzer(),
						true);
			} else {
				System.out.println("----------append index-----------");
				writer = new IndexWriter(indexPath, new StandardAnalyzer(),
						false);
			}
			TopicDetail td = new TopicDetail();
                           Document doc = new Document();	
			doc.add(new Field("tid", String.valueOf(td.getTopicID()), Field.Store.YES, Field.Index.TOKENIZED));
			doc.add(new Field("pid", String.valueOf(td.getPID()),Field.Store.YES, Field.Index.TOKENIZED));
			doc.add(new Field("mtitle", td.getTopicTitle(), Field.Store.YES, Field.Index.TOKENIZED));
            doc.add(new Field("mauthor", td.getTopicAuthor(), Field.Store.YES, Field.Index.TOKENIZED));
            doc.add(new Field("mtime", td.getTopicPostTime(), Field.Store.YES, Field.Index.UN_TOKENIZED));
            doc.add(new Field("mcontent", td.getTopicContent(), Field.Store.YES, Field.Index.TOKENIZED));
            doc.add(new Field("murl", td.getUrl(), Field.Store.YES, Field.Index.TOKENIZED));
writer.addDocument(doc);

			System.out.println("正在对索引进行优化...");
			writer.optimize();
			System.out.println("优化完毕！");
			System.out.println("正在关闭索引读写器...");
			writer.close();
			System.out.println("索引读写器已经关闭！");			
		}catch(Exception e){
			e.printStackTrace();
		}finally{
			try {
				writer.close();
			} catch (CorruptIndexException e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
			} catch (IOException e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
			}
		}

这段代码主要处理的是索引的创建以及追加的过程，如果只是平常的应用，我觉得有这些代码已经足够了。
在new 一个filed的时候，Field.Store 表示“是否存储”，即该Field内的信息是否要被原封不动的保存在索引中。
Field.Index 表示“是否索引”，即在这个Field中的数据是否在将来检索时需要被用户检索到，一个“不索引”的Field通常仅是提供辅助信息储存的功能。

Store
       COMPRESS:压缩保存。用于长文本或二进制数据
        YES：保存
        NO：不保存
Index
       NO：不建索引
        TOKENIZED：分词，建索引
        UN_TOKENIZED：不分词，建索引
        NO_NORMS：不分词，建索引。但是Field的值不像通常那样被保存，而是只取一个byte，这样节约存储空间

需要注意的是，如果你查询的时候需要对某个字段进行排序，那么这个指定的字段必须为field.index.un_tokenized，否则查询会报错

分享到：

快速排序算法 | htmlparser 工具类

2010-04-02 14:22
浏览 3456
评论(2)
分类:编程语言
查看更多

2 楼 tianhewulei 2010-06-22

TopicDetail只是一个javabean而已，存放临时数据的，程序运行时，从该对象里面取值然后放入相应的lucene索引字段，你可以根据你实际应用去改变这个类

1 楼 haoyuheng 2010-06-01

问一下楼主TopicDetail是什么类啊？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论