在Lucene中应用poading进行分词 -

zfsn

浏览: 339646 次
性别:
来自: 北京

最近访客更多访客>>

ks2144634

testjiang3

livizy

liuxiao723846

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

在Lucene中应用poading进行分词

博客分类：

Lucene

lucene Apache Google 软件测试 .net

1、下载poading解牛
http://code.google.com/p/paoding/downloads/list
2、设置系统环境变量PAODING_DIC_HOME指向词典安装目录
如：paoding.dic.home=z:\data\paoding\dic
3、解压paoding-analysis-2.0.4-beta，解压后再用压缩软件打开paoding-analysis.jar文件，单个解压出paoding-analysis.properties文件，在paoding-analysis.properties文件中添加或修改paoding.dic.home的值。并将paoding-analysis-2.0.4-beta解压包中的dic下的文件拷到PAODING_DIC_HOME目录下
如：paoding.dic.home=z:\data\paoding\dic
然后在将修改后的文件放回paoding-analysis.jar包
4、创建一个词库目录，目录必须跟paoding.dic.home的值一致，如：
paoding.dic.home=z:\data\paoding\dic
再创建索引目录，
如:paoding.dic.home=z:\data\paoding\test_index
5、创建一个java project,将paoding-analysis-2.0.4-beta根目录下的包引入，注意，此时引入的paoding-analysis.jar包应是你修改过的包文件。
6、测试代码：

package com.paoding.index;   
  
  
import java.io.IOException;   
  
import net.paoding.analysis.analyzer.PaodingAnalyzer;   
  
import org.apache.lucene.analysis.Analyzer;   
import org.apache.lucene.analysis.TokenStream;   
import org.apache.lucene.document.Document;   
import org.apache.lucene.document.Field;   
import org.apache.lucene.index.CorruptIndexException;   
import org.apache.lucene.index.IndexReader;   
import org.apache.lucene.index.IndexWriter;   
import org.apache.lucene.index.TermPositionVector;   
import org.apache.lucene.queryParser.ParseException;   
import org.apache.lucene.queryParser.QueryParser;   
import org.apache.lucene.search.Hits;   
import org.apache.lucene.search.IndexSearcher;   
import org.apache.lucene.search.Query;   
import org.apache.lucene.search.Searcher;   
import org.apache.lucene.search.highlight.Formatter;   
import org.apache.lucene.search.highlight.Highlighter;   
import org.apache.lucene.search.highlight.QueryScorer;   
import org.apache.lucene.search.highlight.TokenGroup;   
import org.apache.lucene.search.highlight.TokenSources;   
import org.apache.lucene.store.LockObtainFailedException;   
public class Index {   
  
    /**  
     * @param args  
     */  
    public static void main(String[] args) {   
        String IDNEX_PATH = "Z:/data/paoding/test_index";   
        //获取Paoding中文分词器   
        Analyzer analyzer = new PaodingAnalyzer();   
        //建立索引   
        IndexWriter writer;   
        try {   
            writer = new IndexWriter(IDNEX_PATH, analyzer, true);   
  
            Document doc = new Document();   
            Field field = new Field("content", "书法和国的书!", Field.Store.YES,   
                Field.Index.TOKENIZED, Field.TermVector.WITH_POSITIONS_OFFSETS);   
            doc.add(field);   
            writer.addDocument(doc);   
            writer.close();   
            System.out.println("Indexed success!");   
                
            //检索   
            IndexReader reader = IndexReader.open(IDNEX_PATH);   
            QueryParser parser = new QueryParser("content", analyzer);   
            Query query = parser.parse("书法");   
            Searcher searcher = new IndexSearcher(reader);   
            Hits hits = searcher.search(query);   
            if (hits.length() == 0) {   
                System.out.println("hits.length=0");   
            }   
            Document doc2 = hits.doc(0);   
            //高亮处理   
            String text = doc2.get("content");   
            TermPositionVector tpv = (TermPositionVector) reader.getTermFreqVector(   
                            0, "content");   
            TokenStream ts = TokenSources.getTokenStream(tpv);   
            Formatter formatter = new Formatter() {   
                public String highlightTerm(String srcText, TokenGroup g) {   
                    if (g.getTotalScore() <= 0) {   
                        return srcText;   
                    }   
                    return "<b>" + srcText + "</b>";   
                }   
            };   
            Highlighter highlighter = new Highlighter(formatter, new QueryScorer(   
                    query));   
            String result = highlighter.getBestFragments(ts, text, 5, "…");   
            System.out.println("result:\n\t" + result);   
            reader.close();   
        } catch (CorruptIndexException e) {   
            // TODO Auto-generated catch block   
            e.printStackTrace();   
        } catch (LockObtainFailedException e) {   
            // TODO Auto-generated catch block   
            e.printStackTrace();   
        } catch (IOException e) {   
            // TODO Auto-generated catch block   
            e.printStackTrace();   
        } catch (ParseException e) {   
            // TODO Auto-generated catch block   
            e.printStackTrace();   
        }   
  
  
    }   
  
}

分享到：

Lucene中自定义排序的实现 | 用Lucene实现摘要的高亮点

2009-11-07 17:52
浏览 1221
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

在Lucene中应用poading进行分词

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

在Lucene中应用poading进行分词

评论

发表评论

相关推荐

布隆过滤器（Bloom Filter）之java实例

Lucene查询语法详解

使用Lucene的Highlighter实现文件摘要的自动提取

ICTCLAS 中科院分词系统 代码 注释 中文分词 词性标注

Lucene日期排序及组合查询

Lucene中自定义排序的实现

用Lucene实现摘要的高亮点

Lucene日期索引搜索

Lucene 中文引擎，庖丁解牛的辞典参数配置方法

Lucene 2.4更新索引的方法(Update Index)

庖丁解牛的Lucene 2.4的全文搜索代码

Lucene 搜索方式

转一篇lucene的使用的文章，写的比较全

最近访客更多访客>>

ICTCLAS 中科院分词系统代码注释中文分词词性标注