[转]Plucene介绍

wapysun

浏览: 21656704 次
性别:
来自: 杭州

最近访客更多访客>>

devcang

hunankeda110

辽东小小

apex53

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2012-06 ( 77)
2012-05 ( 587)
2012-04 ( 177)
更多存档...

Plucene介绍

作者：chiesa 最后更新：2005/9/25

概述

Lucene不是一个完整的全文索引应用，而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。

Plucene基于java lucene项目创建。
Plucene::Simple可以让我们更方便的使用Plucene。

安装方法：

perl -MCPAN -e “install Plucene”
perl -MCPAN -e “install Plucene::Simple”

Hello World

1    use Plucene::Simple;23    my $index = Plucene::Simple->open( "/test/index" );4    5    6    $index->add("file1.txt" => {content=> "hello world"});7    $index->add("file2.txt" =>{content=> "hello china"});8    910    @ids = $index->search("world");11    print "@ids";

程序输出的结果为file1.txt。

第3行：我们打开索引目录/test/index，如果没有该目录，会自动创建。如果索引目录已经存在，那么索引内容会被自动载入。

第6、7行：添加索引：fileX.txt的内容为hello.. 索引会被存储在/test/index，当下次程序运行，这些索引内容依然存在，可以直接检索。

第10行：搜索world

结果得到file1.txt包含world。

构建全文搜索

根据上面的例子，建立一个针对文件系统的搜索引擎的方法就很简单了。

首先，制作一个Indexer服务，负责遍历文件系统目录，监控文件系统更新，读取文件，添加文档内容，制作index。
(参照上节代码第6,7行)

注意，对于不同格式的文件需要进行格式转换，如：pdf2text,html2text,word2text等。

然后，制作Searcher用户界面，进行搜索。
(参照上节代码第10,11行)

构建搜索引擎
和针对文件系统的搜索不同的是，搜索引擎的文档来源来自于internet。

首先，需要制作web spider，自动获取网页html，然后将html转换成text，然后进行index制作。

中文问题解决

Plucene中文是个big problem。主要表现在分词上。

要解决这个问题，首先，你需要了解Plucene API机制，而不是仅使用Plucene Simple（事实上，效率上，这个包的机制也有很多值得优化的地方，比如index文件的预取等）。

关于Plucene机制，可以参考其Pod帮助文档。

当然，更好的是，通过Lucene来了解。在国内，chedong已经写了这方面的文档，非常好。

下面，提供我的解决思路，基于Plucene::Analysis::Standard::StandardAnalyzer,Plucene::Analysis::Standard::StandardTokenizer改造,来制作你自己的Plucene::Analysis::ChineseAnalyzer和Plucene::Analysis::ChineseTokenizer，这两个包负责的是分词。然后修改Plucene::Simple(或者基于此制作你的Plucene::Simple::Chinese)来调用Plucene::Analysis::ChineseAnalyzer。

下面是Plucene::Analysis::ChineseTokenizer代码：

1 package Plucene::Analysis::ChineseTokenizer;2 use strict;3 use warnings;4 use Carp;5 use Plucene::Analysis::Token;6 use base 'Plucene::Analysis::Tokenizer';7 sub normalize { lc 

Plucene介绍
作者：chiesa 最后更新：2005/9/25
概述
Lucene不是一个完整的全文索引应用，而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。
Plucene基于java lucene项目创建。
Plucene::Simple可以让我们更方便的使用Plucene。
安装方法：
perl -MCPAN -e “install Plucene” 
perl -MCPAN -e “install Plucene::Simple”
Hello World
1    use Plucene::Simple;23    my $index = Plucene::Simple->open( "/test/index" );4    5    6    $index->add("file1.txt" => {content=> "hello world"});7    $index->add("file2.txt" =>{content=> "hello china"});8    910    @ids = $index->search("world");11    print "@ids";
程序输出的结果为file1.txt。
第3行：我们打开索引目录/test/index，如果没有该目录，会自动创建。如果索引目录已经存在，那么索引内容会被自动载入。
第6、7行：添加索引：fileX.txt的内容为hello.. 索引会被存储在/test/index，当下次程序运行，这些索引内容依然存在，可以直接检索。
第10行：搜索world
结果得到file1.txt包含world。
构建全文搜索
根据上面的例子，建立一个针对文件系统的搜索引擎的方法就很简单了。
首先，制作一个Indexer服务，负责遍历文件系统目录，监控文件系统更新，读取文件，添加文档内容，制作index。
(参照上节代码第6,7行)
注意，对于不同格式的文件需要进行格式转换，如：pdf2text,html2text,word2text等。
然后，制作Searcher用户界面，进行搜索。
(参照上节代码第10,11行)
构建搜索引擎
和针对文件系统的搜索不同的是，搜索引擎的文档来源来自于internet。
首先，需要制作web spider，自动获取网页html，然后将html转换成text，然后进行index制作。
中文问题解决
Plucene中文是个big problem。主要表现在分词上。
要解决这个问题，首先，你需要了解Plucene API机制，而不是仅使用Plucene Simple（事实上，效率上，这个包的机制也有很多值得优化的地方，比如index文件的预取等）。
关于Plucene机制，可以参考其Pod帮助文档。
当然，更好的是，通过Lucene来了解。在国内，chedong已经写了这方面的文档，非常好。
下面，提供我的解决思路，基于Plucene::Analysis::Standard::StandardAnalyzer,Plucene::Analysis::Standard::StandardTokenizer改造,来制作你自己的Plucene::Analysis::ChineseAnalyzer和Plucene::Analysis::ChineseTokenizer，这两个包负责的是分词。然后修改Plucene::Simple(或者基于此制作你的Plucene::Simple::Chinese)来调用Plucene::Analysis::ChineseAnalyzer。
下面是Plucene::Analysis::ChineseTokenizer代码：

___FCKpd___1

代码和StandardTokenize的实现含义基本是完全相同的。需要额外解释的是第20行/p{INGB2312}和第22行BASE64Encoding。
在第20行，我们使用/p{INGB2312}，这个是需要自行实现的一个宏。用以判断该字符是否属于半中文字符。具体实现可以参照http://search.cpan.org/~dankogai/Encode-InCharset-0.03/InCharset.pm。对于我们来说，/p{INGB2312}是判断该字符是否属于0xa1－0xfe之间（gb2312编码范围是高位0xa1－0xfe，低位也是0xa1-0xfe）。
第22行，我们使用了一个函数BASE64Encoding，这也是我们需要自行实现的一个函数，用来对汉字作BASE64编码，这个perl提供了相关库支持，很容易做到。
为什么要做BASE64编码，因为我发现Plucene在存储汉字index的时候有问题，所以用这种方法解决，将汉字转换成普通字符序列。否则我们直接使用http://search.cpan.org/~dankogai/Encode-InCharset-0.03/InCharset.pm中的/p{InGB2312}就可以了(在代码中使用use encoding 'gb2312'申明使用汉字编码)，这个宏可以用来判断双字节的汉字。
Plucene::Analysis::ChineseAnalyzer与Plucene::Analysis::Standard::StandardAnalyzer基本相同，只是调用的Tokenizer为Plucene::Analysis::ChineseTokenizer。注意，我们的方法只能针对gb2312代码与英文，如果需要支持其他代码，需要自行扩展。
这样我们就初步解决了Plucene的中文问题，一个可以运作的中文搜索就实现了。
我们的方法是遇到一个中文字就将其作为一个分词结果，比如，“中国人”，分词结果为”中”,”国”,”人”,更好的分词可以针对词典来分。Perl已经有这方面的中文实现。请参考http://www.mandarintools.com/上的perl segment（作者也提供了一个java实现)。
结论
Plucene的中文化是个很麻烦的事情。我上面提到的方法只是很简单的一个解决方案，我并不打算完整实现它，只是提供一个思路。
为了得到更好的搜索结果，大家需要参考Lucene在中文化方面的成果，比如：http://www.siuying.net/articles/2005/03/16/382,siu.ying做了很好的范例。同时，还有人使用计算所汉语词法分析系统ICTCLAS在java lucene中，也是一个很好的尝试。
在我的观点，大家不如使用基于Java的Lucene，因为在这个平台上，国内已经有很多成熟的中文问题解决的范例了。我就打算这么做。：)


Showing changes from revision #1 to #2: Added | Removed 
Plucene介绍
作者：chiesa 最后更新：2005/9/22最后更新：2005/9/25
概述
Lucene不是一个完整的全文索引应用，而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。
Plucene基于java lucene项目创建。
Plucene::Simple可以让我们更方便的使用Plucene。
安装方法：
perl -MCPAN -e “install Plucene” 
perl -MCPAN -e “install Plucene::Simple”
Hello World
1    use Plucene::Simple;23    my $index = Plucene::Simple->open( "/test/index" );4    5    6    $index->add("file1.txt" => {content=> "hello world"});7    $index->add("file2.txt" =>{content=> "hello china"});8    910    @ids = $index->search("world");11    print "@ids";
程序输出的结果为file1.txt。
第3行：我们打开索引目录/test/index，如果没有该目录，会自动创建。如果索引目录已经存在，那么索引内容会被自动载入。
第6、7行：添加索引：fileX.txt的内容为hello.. 索引会被存储在/test/index，当下次程序运行，这些索引内容依然存在，可以直接检索。
第10行：搜索world
结果得到file1.txt包含world。
构建全文搜索
根据上面的例子，建立一个针对文件系统的搜索引擎的方法就很简单了。
首先，制作一个Indexer服务，负责遍历文件系统目录，监控文件系统更新，读取文件，添加文档内容，制作index。
(参照上节代码第6,7行)
注意，对于不同格式的文件需要进行格式转换，如：pdf2text,html2text,word2text等。
然后，制作Searcher用户界面，进行搜索。
(参照上节代码第10,11行)
构建搜索引擎
和针对文件系统的搜索不同的是，搜索引擎的文档来源来自于internet。
首先，需要制作web spider，自动获取网页html，然后将html转换成text，然后进行index制作。
中文问题解决
Plucene中文是个big problem。主要表现在分词上。
要解决这个问题，首先，你需要了解Plucene API机制，而不是仅使用Plucene Simple（事实上，效率上，这个包的机制也有很多值得优化的地方，比如index文件的预取等）。
关于Plucene机制，可以参考其Pod帮助文档。
当然，更好的是，通过Lucene来了解。在国内，chedong已经写了这方面的文档，非常好。
下面，提供我的解决思路，基于Plucene::Analysis::Standard::StandardAnalyzer,Plucene::Analysis::Standard::StandardTokenizer改造,来制作你自己的Plucene::Analysis::ChineseAnalyzer和Plucene::Analysis::ChineseTokenizer，这两个包负责的是分词。然后修改Plucene::Simple(或者基于此制作你的Plucene::Simple::Chinese)来调用Plucene::Analysis::ChineseAnalyzer。
下面是Plucene::Analysis::ChineseTokenizer代码：

1 package Plucene::Analysis::ChineseTokenizer;2 use strict;3 use warnings;4 use Carp;5 use Plucene::Analysis::Token;6 use base 'Plucene::Analysis::Tokenizer';7 sub normalize { lc 

Plucene介绍
作者：chiesa 最后更新：2005/9/25
概述
Lucene不是一个完整的全文索引应用，而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。
Plucene基于java lucene项目创建。
Plucene::Simple可以让我们更方便的使用Plucene。
安装方法：
perl -MCPAN -e “install Plucene” 
perl -MCPAN -e “install Plucene::Simple”
Hello World
1    use Plucene::Simple;23    my $index = Plucene::Simple->open( "/test/index" );4    5    6    $index->add("file1.txt" => {content=> "hello world"});7    $index->add("file2.txt" =>{content=> "hello china"});8    910    @ids = $index->search("world");11    print "@ids";
程序输出的结果为file1.txt。
第3行：我们打开索引目录/test/index，如果没有该目录，会自动创建。如果索引目录已经存在，那么索引内容会被自动载入。
第6、7行：添加索引：fileX.txt的内容为hello.. 索引会被存储在/test/index，当下次程序运行，这些索引内容依然存在，可以直接检索。
第10行：搜索world
结果得到file1.txt包含world。
构建全文搜索
根据上面的例子，建立一个针对文件系统的搜索引擎的方法就很简单了。
首先，制作一个Indexer服务，负责遍历文件系统目录，监控文件系统更新，读取文件，添加文档内容，制作index。
(参照上节代码第6,7行)
注意，对于不同格式的文件需要进行格式转换，如：pdf2text,html2text,word2text等。
然后，制作Searcher用户界面，进行搜索。
(参照上节代码第10,11行)
构建搜索引擎
和针对文件系统的搜索不同的是，搜索引擎的文档来源来自于internet。
首先，需要制作web spider，自动获取网页html，然后将html转换成text，然后进行index制作。
中文问题解决
Plucene中文是个big problem。主要表现在分词上。
要解决这个问题，首先，你需要了解Plucene API机制，而不是仅使用Plucene Simple（事实上，效率上，这个包的机制也有很多值得优化的地方，比如index文件的预取等）。
关于Plucene机制，可以参考其Pod帮助文档。
当然，更好的是，通过Lucene来了解。在国内，chedong已经写了这方面的文档，非常好。
下面，提供我的解决思路，基于Plucene::Analysis::Standard::StandardAnalyzer,Plucene::Analysis::Standard::StandardTokenizer改造,来制作你自己的Plucene::Analysis::ChineseAnalyzer和Plucene::Analysis::ChineseTokenizer，这两个包负责的是分词。然后修改Plucene::Simple(或者基于此制作你的Plucene::Simple::Chinese)来调用Plucene::Analysis::ChineseAnalyzer。
下面是Plucene::Analysis::ChineseTokenizer代码：

1 package Plucene::Analysis::ChineseTokenizer;2 use strict;3 use warnings;4 use Carp;5 use Plucene::Analysis::Token;6 use base 'Plucene::Analysis::Tokenizer';7 sub normalize { lc 

Plucene介绍
作者：chiesa 最后更新：2005/9/25
概述
Lucene不是一个完整的全文索引应用，而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。
Plucene基于java lucene项目创建。
Plucene::Simple可以让我们更方便的使用Plucene。
安装方法：
perl -MCPAN -e “install Plucene” 
perl -MCPAN -e “install Plucene::Simple”
Hello World
1    use Plucene::Simple;23    my $index = Plucene::Simple->open( "/test/index" );4    5    6    $index->add("file1.txt" => {content=> "hello world"});7    $index->add("file2.txt" =>{content=> "hello china"});8    910    @ids = $index->search("world");11    print "@ids";
程序输出的结果为file1.txt。
第3行：我们打开索引目录/test/index，如果没有该目录，会自动创建。如果索引目录已经存在，那么索引内容会被自动载入。
第6、7行：添加索引：fileX.txt的内容为hello.. 索引会被存储在/test/index，当下次程序运行，这些索引内容依然存在，可以直接检索。
第10行：搜索world
结果得到file1.txt包含world。
构建全文搜索
根据上面的例子，建立一个针对文件系统的搜索引擎的方法就很简单了。
首先，制作一个Indexer服务，负责遍历文件系统目录，监控文件系统更新，读取文件，添加文档内容，制作index。
(参照上节代码第6,7行)
注意，对于不同格式的文件需要进行格式转换，如：pdf2text,html2text,word2text等。
然后，制作Searcher用户界面，进行搜索。
(参照上节代码第10,11行)
构建搜索引擎
和针对文件系统的搜索不同的是，搜索引擎的文档来源来自于internet。
首先，需要制作web spider，自动获取网页html，然后将html转换成text，然后进行index制作。
中文问题解决
Plucene中文是个big problem。主要表现在分词上。
要解决这个问题，首先，你需要了解Plucene API机制，而不是仅使用Plucene Simple（事实上，效率上，这个包的机制也有很多值得优化的地方，比如index文件的预取等）。
关于Plucene机制，可以参考其Pod帮助文档。
当然，更好的是，通过Lucene来了解。在国内，chedong已经写了这方面的文档，非常好。
下面，提供我的解决思路，基于Plucene::Analysis::Standard::StandardAnalyzer,Plucene::Analysis::Standard::StandardTokenizer改造,来制作你自己的Plucene::Analysis::ChineseAnalyzer和Plucene::Analysis::ChineseTokenizer，这两个包负责的是分词。然后修改Plucene::Simple(或者基于此制作你的Plucene::Simple::Chinese)来调用Plucene::Analysis::ChineseAnalyzer。
下面是Plucene::Analysis::ChineseTokenizer代码：

___FCKpd___1

代码和StandardTokenize的实现含义基本是完全相同的。需要额外解释的是第20行/p{INGB2312}和第22行BASE64Encoding。
在第20行，我们使用/p{INGB2312}，这个是需要自行实现的一个宏。用以判断该字符是否属于半中文字符。具体实现可以参照http://search.cpan.org/~dankogai/Encode-InCharset-0.03/InCharset.pm。对于我们来说，/p{INGB2312}是判断该字符是否属于0xa1－0xfe之间（gb2312编码范围是高位0xa1－0xfe，低位也是0xa1-0xfe）。
第22行，我们使用了一个函数BASE64Encoding，这也是我们需要自行实现的一个函数，用来对汉字作BASE64编码，这个perl提供了相关库支持，很容易做到。
为什么要做BASE64编码，因为我发现Plucene在存储汉字index的时候有问题，所以用这种方法解决，将汉字转换成普通字符序列。否则我们直接使用http://search.cpan.org/~dankogai/Encode-InCharset-0.03/InCharset.pm中的/p{InGB2312}就可以了(在代码中使用use encoding 'gb2312'申明使用汉字编码)，这个宏可以用来判断双字节的汉字。
Plucene::Analysis::ChineseAnalyzer与Plucene::Analysis::Standard::StandardAnalyzer基本相同，只是调用的Tokenizer为Plucene::Analysis::ChineseTokenizer。注意，我们的方法只能针对gb2312代码与英文，如果需要支持其他代码，需要自行扩展。
这样我们就初步解决了Plucene的中文问题，一个可以运作的中文搜索就实现了。
我们的方法是遇到一个中文字就将其作为一个分词结果，比如，“中国人”，分词结果为”中”,”国”,”人”,更好的分词可以针对词典来分。Perl已经有这方面的中文实现。请参考http://www.mandarintools.com/上的perl segment（作者也提供了一个java实现)。
结论
Plucene的中文化是个很麻烦的事情。我上面提到的方法只是很简单的一个解决方案，我并不打算完整实现它，只是提供一个思路。
为了得到更好的搜索结果，大家需要参考Lucene在中文化方面的成果，比如：http://www.siuying.net/articles/2005/03/16/382,siu.ying做了很好的范例。同时，还有人使用计算所汉语词法分析系统ICTCLAS在java lucene中，也是一个很好的尝试。
在我的观点，大家不如使用基于Java的Lucene，因为在这个平台上，国内已经有很多成熟的中文问题解决的范例了。我就打算这么做。：)


Showing changes from revision #1 to #2: Added | Removed 
Plucene介绍
作者：chiesa 最后更新：2005/9/22最后更新：2005/9/25
概述
Lucene不是一个完整的全文索引应用，而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。
Plucene基于java lucene项目创建。
Plucene::Simple可以让我们更方便的使用Plucene。
安装方法：
perl -MCPAN -e “install Plucene” 
perl -MCPAN -e “install Plucene::Simple”
Hello World
1    use Plucene::Simple;23    my $index = Plucene::Simple->open( "/test/index" );4    5    6    $index->add("file1.txt" => {content=> "hello world"});7    $index->add("file2.txt" =>{content=> "hello china"});8    910    @ids = $index->search("world");11    print "@ids";
程序输出的结果为file1.txt。
第3行：我们打开索引目录/test/index，如果没有该目录，会自动创建。如果索引目录已经存在，那么索引内容会被自动载入。
第6、7行：添加索引：fileX.txt的内容为hello.. 索引会被存储在/test/index，当下次程序运行，这些索引内容依然存在，可以直接检索。
第10行：搜索world
结果得到file1.txt包含world。
构建全文搜索
根据上面的例子，建立一个针对文件系统的搜索引擎的方法就很简单了。
首先，制作一个Indexer服务，负责遍历文件系统目录，监控文件系统更新，读取文件，添加文档内容，制作index。
(参照上节代码第6,7行)
注意，对于不同格式的文件需要进行格式转换，如：pdf2text,html2text,word2text等。
然后，制作Searcher用户界面，进行搜索。
(参照上节代码第10,11行)
构建搜索引擎
和针对文件系统的搜索不同的是，搜索引擎的文档来源来自于internet。
首先，需要制作web spider，自动获取网页html，然后将html转换成text，然后进行index制作。
中文问题解决
Plucene中文是个big problem。主要表现在分词上。
要解决这个问题，首先，你需要了解Plucene API机制，而不是仅使用Plucene Simple（事实上，效率上，这个包的机制也有很多值得优化的地方，比如index文件的预取等）。
关于Plucene机制，可以参考其Pod帮助文档。
当然，更好的是，通过Lucene来了解。在国内，chedong已经写了这方面的文档，非常好。
下面，提供我的解决思路，基于Plucene::Analysis::Standard::StandardAnalyzer,Plucene::Analysis::Standard::StandardTokenizer改造,来制作你自己的Plucene::Analysis::ChineseAnalyzer和Plucene::Analysis::ChineseTokenizer，这两个包负责的是分词。然后修改Plucene::Simple(或者基于此制作你的Plucene::Simple::Chinese)来调用Plucene::Analysis::ChineseAnalyzer。
下面是Plucene::Analysis::ChineseTokenizer代码：

___FCKpd___3

代码和StandardTokenize的实现含义基本是完全相同的。需要额外解释的是第20行/p{INGB2312}和第22行BASE64Encoding。
在第20行，我们使用/p{INGB2312}，这个是需要自行实现的一个宏。用以判断该字符是否属于半中文字符。具体实现可以参照http://search.cpan.org/~dankogai/Encode-InCharset-0.03/InCharset.pm。对于我们来说，/p{INGB2312}是判断该字符是否属于0xa1－0xfe之间（gb2312编码范围是高位0xa1－0xfe，低位也是0xa1-0xfe）。
第22行，我们使用了一个函数BASE64Encoding，这也是我们需要自行实现的一个函数，用来对汉字作BASE64编码，这个perl提供了相关库支持，很容易做到。
为什么要做BASE64编码，因为我发现Plucene在存储汉字index的时候有问题，所以用这种方法解决，将汉字转换成普通字符序列。否则我们直接使用http://search.cpan.org/~dankogai/Encode-InCharset-0.03/InCharset.pm中的/p{InGB2312}就可以了(在代码中使用use encoding 'gb2312'申明使用汉字编码)，这个宏可以用来判断双字节的汉字。
Plucene::Analysis::ChineseAnalyzer与Plucene::Analysis::Standard::StandardAnalyzer基本相同，只是调用的Tokenizer为Plucene::Analysis::ChineseTokenizer。注意，我们的方法只能针对gb2312代码与英文，如果需要支持其他代码，需要自行扩展。
这样我们就初步解决了Plucene的中文问题，一个可以运作的中文搜索就实现了。
我们的方法是遇到一个中文字就将其作为一个分词结果，比如，“中国人”，分词结果为”中”,”国”,”人”,更好的分词可以针对词典来分。Perl已经有这方面的中文实现。请参考http://www.mandarintools.com/上的perl segment（作者也提供了一个java实现)。
结论
Plucene的中文化是个很麻烦的事情。我上面提到的方法只是很简单的一个解决方案，我并不打算完整实现它，只是提供一个思路。
为了得到更好的搜索结果，大家需要参考Lucene在中文化方面的成果，比如：http://www.siuying.net/articles/2005/03/16/382,siu.ying做了很好的范例。同时，还有人使用计算所汉语词法分析系统ICTCLAS在java lucene中，也是一个很好的尝试。
在我的观点，大家不如使用基于Java的Lucene，因为在这个平台上，国内已经有很多成熟的中文问题解决的范例了。我就打算这么做。：)
[1]}8 sub next {9    my $self = shift;1011    my $fh   = $self->{reader};12    retry:13    if (!defined $self->{buffer} or !length $self->{buffer}) {14        return if eof($fh);15        $self->{start} = tell($fh);16        $self->{buffer} .= ;17    }18    return unless length $self->{buffer};1920    if ($self->{buffer} =~ s/(.*?)(/p{INGB2312}/p{INGB2312}|[[:alpha:]]+)//) {21        $self->{start} += length $1;22        if(ord(substr($word,0,1))>127){$word="!".BASE64Encoding($word);}23        my $rv   = Plucene::Analysis::Token->new(text  => $word,start => $self->{start},end   => ($self->{start} + length($word)));24        $self->{start} += length($word);25        return $rv;26    }27    # No match, rest of buffer is useless.28    $self->{buffer} = "";29    # But we should try for some more text30    goto retry;31   }32   1;

代码和StandardTokenize的实现含义基本是完全相同的。需要额外解释的是第20行/p{INGB2312}和第22行BASE64Encoding。
在第20行，我们使用/p{INGB2312}，这个是需要自行实现的一个宏。用以判断该字符是否属于半中文字符。具体实现可以参照http://search.cpan.org/~dankogai/Encode-InCharset-0.03/InCharset.pm。对于我们来说，/p{INGB2312}是判断该字符是否属于0xa1－0xfe之间（gb2312编码范围是高位0xa1－0xfe，低位也是0xa1-0xfe）。
第22行，我们使用了一个函数BASE64Encoding，这也是我们需要自行实现的一个函数，用来对汉字作BASE64编码，这个perl提供了相关库支持，很容易做到。
为什么要做BASE64编码，因为我发现Plucene在存储汉字index的时候有问题，所以用这种方法解决，将汉字转换成普通字符序列。否则我们直接使用http://search.cpan.org/~dankogai/Encode-InCharset-0.03/InCharset.pm中的/p{InGB2312}就可以了(在代码中使用use encoding 'gb2312'申明使用汉字编码)，这个宏可以用来判断双字节的汉字。
Plucene::Analysis::ChineseAnalyzer与Plucene::Analysis::Standard::StandardAnalyzer基本相同，只是调用的Tokenizer为Plucene::Analysis::ChineseTokenizer。注意，我们的方法只能针对gb2312代码与英文，如果需要支持其他代码，需要自行扩展。
这样我们就初步解决了Plucene的中文问题，一个可以运作的中文搜索就实现了。
我们的方法是遇到一个中文字就将其作为一个分词结果，比如，“中国人”，分词结果为”中”,”国”,”人”,更好的分词可以针对词典来分。Perl已经有这方面的中文实现。请参考http://www.mandarintools.com/上的perl segment（作者也提供了一个java实现)。
结论
Plucene的中文化是个很麻烦的事情。我上面提到的方法只是很简单的一个解决方案，我并不打算完整实现它，只是提供一个思路。
为了得到更好的搜索结果，大家需要参考Lucene在中文化方面的成果，比如：http://www.siuying.net/articles/2005/03/16/382,siu.ying做了很好的范例。同时，还有人使用计算所汉语词法分析系统ICTCLAS在java lucene中，也是一个很好的尝试。
在我的观点，大家不如使用基于Java的Lucene，因为在这个平台上，国内已经有很多成熟的中文问题解决的范例了。我就打算这么做。：)


Showing changes from revision #1 to #2: Added | Removed 
Plucene介绍
作者：chiesa 最后更新：2005/9/22最后更新：2005/9/25
概述
Lucene不是一个完整的全文索引应用，而是是一个用Java写的全文索引引擎工具包，它可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。
Plucene基于java lucene项目创建。
Plucene::Simple可以让我们更方便的使用Plucene。
安装方法：
perl -MCPAN -e “install Plucene” 
perl -MCPAN -e “install Plucene::Simple”
Hello World
___FCKpd___2
程序输出的结果为file1.txt。
第3行：我们打开索引目录/test/index，如果没有该目录，会自动创建。如果索引目录已经存在，那么索引内容会被自动载入。
第6、7行：添加索引：fileX.txt的内容为hello.. 索引会被存储在/test/index，当下次程序运行，这些索引内容依然存在，可以直接检索。
第10行：搜索world
结果得到file1.txt包含world。
构建全文搜索
根据上面的例子，建立一个针对文件系统的搜索引擎的方法就很简单了。
首先，制作一个Indexer服务，负责遍历文件系统目录，监控文件系统更新，读取文件，添加文档内容，制作index。
(参照上节代码第6,7行)
注意，对于不同格式的文件需要进行格式转换，如：pdf2text,html2text,word2text等。
然后，制作Searcher用户界面，进行搜索。
(参照上节代码第10,11行)
构建搜索引擎
和针对文件系统的搜索不同的是，搜索引擎的文档来源来自于internet。
首先，需要制作web spider，自动获取网页html，然后将html转换成text，然后进行index制作。
中文问题解决
Plucene中文是个big problem。主要表现在分词上。
要解决这个问题，首先，你需要了解Plucene API机制，而不是仅使用Plucene Simple（事实上，效率上，这个包的机制也有很多值得优化的地方，比如index文件的预取等）。
关于Plucene机制，可以参考其Pod帮助文档。
当然，更好的是，通过Lucene来了解。在国内，chedong已经写了这方面的文档，非常好。
下面，提供我的解决思路，基于Plucene::Analysis::Standard::StandardAnalyzer,Plucene::Analysis::Standard::StandardTokenizer改造,来制作你自己的Plucene::Analysis::ChineseAnalyzer和Plucene::Analysis::ChineseTokenizer，这两个包负责的是分词。然后修改Plucene::Simple(或者基于此制作你的Plucene::Simple::Chinese)来调用Plucene::Analysis::ChineseAnalyzer。
下面是Plucene::Analysis::ChineseTokenizer代码：

___FCKpd___3

代码和StandardTokenize的实现含义基本是完全相同的。需要额外解释的是第20行/p{INGB2312}和第22行BASE64Encoding。
在第20行，我们使用/p{INGB2312}，这个是需要自行实现的一个宏。用以判断该字符是否属于半中文字符。具体实现可以参照http://search.cpan.org/~dankogai/Encode-InCharset-0.03/InCharset.pm。对于我们来说，/p{INGB2312}是判断该字符是否属于0xa1－0xfe之间（gb2312编码范围是高位0xa1－0xfe，低位也是0xa1-0xfe）。
第22行，我们使用了一个函数BASE64Encoding，这也是我们需要自行实现的一个函数，用来对汉字作BASE64编码，这个perl提供了相关库支持，很容易做到。
为什么要做BASE64编码，因为我发现Plucene在存储汉字index的时候有问题，所以用这种方法解决，将汉字转换成普通字符序列。否则我们直接使用http://search.cpan.org/~dankogai/Encode-InCharset-0.03/InCharset.pm中的/p{InGB2312}就可以了(在代码中使用use encoding 'gb2312'申明使用汉字编码)，这个宏可以用来判断双字节的汉字。
Plucene::Analysis::ChineseAnalyzer与Plucene::Analysis::Standard::StandardAnalyzer基本相同，只是调用的Tokenizer为Plucene::Analysis::ChineseTokenizer。注意，我们的方法只能针对gb2312代码与英文，如果需要支持其他代码，需要自行扩展。
这样我们就初步解决了Plucene的中文问题，一个可以运作的中文搜索就实现了。
我们的方法是遇到一个中文字就将其作为一个分词结果，比如，“中国人”，分词结果为”中”,”国”,”人”,更好的分词可以针对词典来分。Perl已经有这方面的中文实现。请参考http://www.mandarintools.com/上的perl segment（作者也提供了一个java实现)。
结论
Plucene的中文化是个很麻烦的事情。我上面提到的方法只是很简单的一个解决方案，我并不打算完整实现它，只是提供一个思路。
为了得到更好的搜索结果，大家需要参考Lucene在中文化方面的成果，比如：http://www.siuying.net/articles/2005/03/16/382,siu.ying做了很好的范例。同时，还有人使用计算所汉语词法分析系统ICTCLAS在java lucene中，也是一个很好的尝试。
在我的观点，大家不如使用基于Java的Lucene，因为在这个平台上，国内已经有很多成熟的中文问题解决的范例了。我就打算这么做。：)
[1]}8 sub next {9    my $self = shift;1011    my $fh   = $self->{reader};12    retry:13    if (!defined $self->{buffer} or !length $self->{buffer}) {14        return if eof($fh);15        $self->{start} = tell($fh);16        $self->{buffer} .= ;17    }18    return unless length $self->{buffer};1920    if ($self->{buffer} =~ s/(.*?)(/p{INGB2312}/p{INGB2312}|[[:alpha:]]+)//) {21        $self->{start} += length $1;22        if(ord(substr($word,0,1))>127){$word="!".BASE64Encoding($word);}23        my $rv   = Plucene::Analysis::Token->new(text  => $word,start => $self->{start},end   => ($self->{start} + length($word)));24        $self->{start} += length($word);25        return $rv;26    }27    # No match, rest of buffer is useless.28    $self->{buffer} = "";29    # But we should try for some more text30    goto retry;31   }32   1;

代码和StandardTokenize的实现含义基本是完全相同的。需要额外解释的是第20行/p{INGB2312}和第22行BASE64Encoding。
在第20行，我们使用/p{INGB2312}，这个是需要自行实现的一个宏。用以判断该字符是否属于半中文字符。具体实现可以参照http://search.cpan.org/~dankogai/Encode-InCharset-0.03/InCharset.pm。对于我们来说，/p{INGB2312}是判断该字符是否属于0xa1－0xfe之间（gb2312编码范围是高位0xa1－0xfe，低位也是0xa1-0xfe）。
第22行，我们使用了一个函数BASE64Encoding，这也是我们需要自行实现的一个函数，用来对汉字作BASE64编码，这个perl提供了相关库支持，很容易做到。
为什么要做BASE64编码，因为我发现Plucene在存储汉字index的时候有问题，所以用这种方法解决，将汉字转换成普通字符序列。否则我们直接使用http://search.cpan.org/~dankogai/Encode-InCharset-0.03/InCharset.pm中的/p{InGB2312}就可以了(在代码中使用use encoding 'gb2312'申明使用汉字编码)，这个宏可以用来判断双字节的汉字。
Plucene::Analysis::ChineseAnalyzer与Plucene::Analysis::Standard::StandardAnalyzer基本相同，只是调用的Tokenizer为Plucene::Analysis::ChineseTokenizer。注意，我们的方法只能针对gb2312代码与英文，如果需要支持其他代码，需要自行扩展。
这样我们就初步解决了Plucene的中文问题，一个可以运作的中文搜索就实现了。
我们的方法是遇到一个中文字就将其作为一个分词结果，比如，“中国人”，分词结果为”中”,”国”,”人”,更好的分词可以针对词典来分。Perl已经有这方面的中文实现。请参考http://www.mandarintools.com/上的perl segment（作者也提供了一个java实现)。
结论
Plucene的中文化是个很麻烦的事情。我上面提到的方法只是很简单的一个解决方案，我并不打算完整实现它，只是提供一个思路。
为了得到更好的搜索结果，大家需要参考Lucene在中文化方面的成果，比如：http://www.siuying.net/articles/2005/03/16/382,siu.ying做了很好的范例。同时，还有人使用计算所汉语词法分析系统ICTCLAS在java lucene中，也是一个很好的尝试。
在我的观点，大家不如使用基于Java的Lucene，因为在这个平台上，国内已经有很多成熟的中文问题解决的范例了。我就打算这么做。：)
[1]}8 sub next {9    my $self = shift;1011    my $fh   = $self->{reader};12    retry:13    if (!defined $self->{buffer} or !length $self->{buffer}) {14        return if eof($fh);15        $self->{start} = tell($fh);16        $self->{buffer} .= ;17    }18    return unless length $self->{buffer};1920    if ($self->{buffer} =~ s/(.*?)(/p{INGB2312}/p{INGB2312}|[[:alpha:]]+)//) {21        $self->{start} += length $1;22        if(ord(substr($word,0,1))>127){$word="!".BASE64Encoding($word);}23        my $rv   = Plucene::Analysis::Token->new(text  => $word,start => $self->{start},end   => ($self->{start} + length($word)));24        $self->{start} += length($word);25        return $rv;26    }27    # No match, rest of buffer is useless.28    $self->{buffer} = "";29    # But we should try for some more text30    goto retry;31   }32   1;

代码和StandardTokenize的实现含义基本是完全相同的。需要额外解释的是第20行/p{INGB2312}和第22行BASE64Encoding。

在第20行，我们使用/p{INGB2312}，这个是需要自行实现的一个宏。用以判断该字符是否属于半中文字符。具体实现可以参照http://search.cpan.org/~dankogai/Encode-InCharset-0.03/InCharset.pm。对于我们来说，/p{INGB2312}是判断该字符是否属于0xa1－0xfe之间（gb2312编码范围是高位0xa1－0xfe，低位也是0xa1-0xfe）。

第22行，我们使用了一个函数BASE64Encoding，这也是我们需要自行实现的一个函数，用来对汉字作BASE64编码，这个perl提供了相关库支持，很容易做到。

为什么要做BASE64编码，因为我发现Plucene在存储汉字index的时候有问题，所以用这种方法解决，将汉字转换成普通字符序列。否则我们直接使用http://search.cpan.org/~dankogai/Encode-InCharset-0.03/InCharset.pm中的/p{InGB2312}就可以了(在代码中使用use encoding 'gb2312'申明使用汉字编码)，这个宏可以用来判断双字节的汉字。

Plucene::Analysis::ChineseAnalyzer与Plucene::Analysis::Standard::StandardAnalyzer基本相同，只是调用的Tokenizer为Plucene::Analysis::ChineseTokenizer

。

注意，我们的方法只能针对gb2312代码与英文，如果需要支持其他代码，需要自行扩展。

这样我们就初步解决了Plucene的中文问题，一个可以运作的中文搜索就实现了。
我们的方法是遇到一个中文字就将其作为一个分词结果，比如，“中国人”，分词结果为”中”,”国”,”人”,更好的分词可以针对词典来分。Perl已经有这方面的中文实现。请参考http://www.mandarintools.com/上的perl segment（作者也提供了一个java实现)。

结论

Plucene的中文化是个很麻烦的事情。我上面提到的方法只是很简单的一个解决方案，我并不打算完整实现它，只是提供一个思路。

为了得到更好的搜索结果，大家需要参考Lucene在中文化方面的成果，比如：http://www.siuying.net/articles/2005/03/16/382,siu.ying做了很好的范例。同时，还有人使用计算所汉语词法分析系统ICTCLAS在java lucene中，也是一个很好的尝试。

在我的观点，大家不如使用基于Java的Lucene，因为在这个平台上，国内已经有很多成熟的中文问题解决的范例了。我就打算这么做。：)

Showing changes from revision #1 to #2: Added | ~~Removed~~