（转载）Lucene几种中文分词的总结 -

itfafa

浏览: 194829 次

最近访客更多访客>>

my404694047

五音谷

欲穷三千界

maomaohou

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

（转载）Lucene几种中文分词的总结

博客分类：

搜索引擎

lucnen 中文分词

Lucene几种中文分词的总结

    博客分类：
    聚类搜索引擎

luceneApachePHP.netBlog
IK_CAnalyzer下载地址：http://cn.ziddu.com/download.php?uid=ZrKcmJepZbOb4palZLKWlJiiZaycmps%3D4



目前最新版本的lucene自身提供的StandardAnalyzer已经具备中文分词的功能，但是不一定能够满足大多数应用的需要。
另外网友谈的比较多的中文分词器还有：
CJKAnalyzer
ChineseAnalyzer
IK_CAnalyzer（MIK_CAnalyzer）
还有一些热心网友自己写的比较不错的分词器在此就不说了，有兴趣的可以自己研究研究。
以上三个中文分词器并不是lucene2.2.jar里提供的。
CJKAnalyzer和ChineseAnalyzer分别是lucene-2.2.0目录下contrib目录下analyzers的lucene-analyzers-2.2.0.jar提供的。分别位于cn和cjk目录。
IK_CAnalyzer（MIK_CAnalyzer）是基于分词词典，目前最新的1.4版本是基于lucene2.0开发的。以上分词器各有优劣，比较如下：
import java.io.Reader;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.StopFilter;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenFilter;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.cjk.CJKAnalyzer;
import org.apache.lucene.analysis.cn.ChineseAnalyzer;
import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.mira.lucene.analysis.IK_CAnalyzer;
import org.mira.lucene.analysis.MIK_CAnalyzer;

public class All_Test {
     private static String string = "中华人民共和国在1949年建立，从此开始了新中国的伟大篇章。";
     public static void Standard_Analyzer(String str) throws Exception{
             Analyzer analyzer = new StandardAnalyzer();
             Reader r = new StringReader(str);
             StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
             System.out.println("=====StandardAnalyzer====");
             System.out.println("分析方法：默认没有词只有字（一元分词）");
             Token t;
           while ((t = sf.next()) != null) {
                   System.out.println(t.termText());
             }
       }
     public static void CJK_Analyzer(String str) throws Exception{
             Analyzer analyzer = new CJKAnalyzer();
             Reader r = new StringReader(str);
             StopFilter sf = (StopFilter) analyzer.tokenStream("", r);
             System.out.println("=====CJKAnalyzer====");
             System.out.println("分析方法:交叉双字分割（二元分词）");
             Token t;
           while ((t = sf.next()) != null) {
                   System.out.println(t.termText());
             }
       }
     public static void Chiniese_Analyzer(String str) throws Exception{
             Analyzer analyzer = new ChineseAnalyzer();
             Reader r = new StringReader(str);
             TokenFilter tf = (TokenFilter) analyzer.tokenStream("", r);
             System.out.println("=====chinese analyzer====");
             System.out.println("分析方法:基本等同StandardAnalyzer（一元分词）");

Token t;
           while ((t = tf.next()) != null) {
                   System.out.println(t.termText());
             }
       }
     public static void ik_CAnalyzer(String str) throws Exception{
//           Analyzer analyzer = new MIK_CAnalyzer();
             Analyzer analyzer = new IK_CAnalyzer();
             Reader r = new StringReader(str);
             TokenStream ts = (TokenStream)analyzer.tokenStream("", r);
             System.out.println("=====IK_CAnalyzer====");
             System.out.println("分析方法:字典分词,正反双向搜索");
             Token t;
           while ((t = ts.next()) != null) {
                 System.out.println(t.termText());
             }
       }
     public static void main(String[] args) throws Exception{
             String str = string;
             System.out.println("我们测试的字符串是："+str);

             Standard_Analyzer(str);
             CJK_Analyzer(str);
             Chiniese_Analyzer(str);
             ik_CAnalyzer(str);
       }

}
分词结果如下：
我们测试的字符串是：中华人民共和国在1949年建立，从此开始了新中国的伟大篇章。
=====StandardAnalyzer====
分析方法：默认没有词只有字（一元分词）
中
华
人
民
共
和
国
在
1949
年
建
立
从
此
开
始
了
新
中
国
的
伟
大
篇
章
=====CJKAnalyzer====
分析方法:交叉双字分割（二元分词）
中华
华人
人民
民共
共和
和国
国在
1949
年建
建立
从此
此开
开始
始了
了新
新中
中国
国的
的伟
伟大
大篇
篇章
=====chinese analyzer====
分析方法:基本等同StandardAnalyzer（一元分词）
中
华
人
民
共
和
国
在
年
建
立
从
此
开
始
了
新
中
国
的
伟
大
篇
章
=====IK_CAnalyzer====
分析方法:字典分词,正反双向搜索
中华人民共和国
中华人民
中华
华人
人民共和国
人民
人
共和国
共和
1949年
建立
从此
开始
新中国
中国
伟大
大篇
篇章
如果 ik_CAnalyzer(String str) 里采用
Analyzer analyzer = new MIK_CAnalyzer();
那么该方法的分词结果是：

中华人民共和国
1949年
建立
从此
开始
新中国
伟大
大篇
篇章

可以看到各种分词结果各不相同，根据应用的需要可以选择合适的分词器。
关于IKAnalyzer的介绍可以参考：
http://blog.csdn.net/dbigbear/archive/2007/01/24/1492380.aspx

IK_CAnalyzer下载地址：http://cn.ziddu.com/download.php?uid=ZrKcmJepZbOb4palZLKWlJiiZaycmps%3D4

搜索引擎和网络爬虫技术群293961767欢迎志同道合的朋友加入！

分享到：

安装solr | 数据挖掘网址共享

2012-04-13 14:40
浏览 1805
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

（转载）Lucene几种中文分词的总结

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

（转载）Lucene几种中文分词的总结

评论

发表评论

相关推荐

(转)Lucene打分规则与Similarity模块详解

Compass将lucene、Spring、Hibernate三者结合

Lucene3.0详解

Lucene为不同字段指定不同分词器(转)

SSH + Lucene + 分页 + 排序 + 高亮 模拟简单新闻网站搜索引擎

Lucene多字段搜索

lucene之sort

Lucene相关度排序的调整

使用solr搭建你的全文检索

《Lucene in action》中推荐的Lucene分页方式

lucene索引word/pdf/html/txt文件及检索(搜索引擎)

lucene3搜索引擎,索引建立搜索排序分页高亮显示, IKAnalyzer分词

用MultiSearcher在多索引中进行搜索

lucene 中一个Filed中包含多值的范围查询

使用lucene PrefixQuery 根据拼音前缀查询

lucene 中一个Filed中包含多值的范围查询

solr部署

Solr快速教程

PrefixQuery前缀搜索符合的所有放入map

数据挖掘网址共享

最近访客更多访客>>

SSH + Lucene + 分页 + 排序 + 高亮模拟简单新闻网站搜索引擎