`
yuanlanjun
  • 浏览: 1188969 次
文章分类
社区版块
存档分类
最新评论

常见中文分词比较

 
阅读更多

原文出处:http://blog.csdn.net/aidayei/article/details/6675886

对于英文文档,其分词的过程很简单。中文文本的分类难度较大,主要是因为汉语分词问题的困难,即为此需要建立完整的汉语概念体系、汉语语法、语义和语用分析是十分复杂的。

lucene包自带的三种中文分词:

以“我是中国人”这句话作分词举例

1.StandardAnalyzer:我-是-中-国-人
2.CJKAnalyzer:我是-是中-中国-国人
3.SmartChineseAnalyzer:我-是-中国-人

第一种是一元分词,第二种是二元分词,第三种应该比较复杂了,没看源码,我猜应该是根据中文语义来分的,有兴趣的可以去详细看看源码

solr自带的中文分词,solr.CJKTokenizerFactory,solr.ChineseTokenizerFactory和solr.ChineseFilterFactory

solr.CJKTokenizerFactory对应于lucene中的CJKAnalyzer,是二元分词
solr.ChineseTokenizerFactory对应于lucene中的StandardAnalyzer,是一元分词
solr.ChineseFilterFactory被StopFilterFactory取代,看名字应该知道是停用词过滤

下面这两种还没得及看,不知道是不是也和lucene中的SmartChineseAnalyzer对应呢

org.apache.solr.analysis.SmartChineseSentenceTokenizerFactory
org.apache.solr.analysis.SmartChineseWordTokenFilterFactory
分享到:
评论

相关推荐

    分词词库_中文分词词库最新整理(TXT格式)

    分词词库_中文分词词库最新整理(TXT格式)

    财经常用词词库大全,用于中文分词

    财经常用词词库大全,用于中文分词,非常全。学习分词、自然语义分析的必备词库。适用于市面绝大部分主流的自然语言处理工具包。

    正向最大匹配中文分词算法

    中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统...

    五百多万常见中文分词,搜索引擎elasticsearch可直接使用

    内容包含五百多万常见中文词典,每个词占一行,UTF8编码,用于搜索引擎分词。

    中文分词文件(共20W个词)

    中文分词文件(共20W个词)

    正向最大匹配算法实现中文分词

    中文分词一直都是中文自然语言处理领域的基础研究。目前,分词系统绝大多数都是基于中文词典的匹配算法。其中最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有三种:一种正向最大匹配,一种...

    反向最大匹配算法实现中文分词

    中文分词一直都是中文自然语言处理领域的基础研究。目前,分词系统绝大多数都是基于中文词典的匹配算法。其中最为常见的是最大匹配算法 (Maximum Matching,以下简称MM算法) 。MM算法有三种:一种正向最大匹配,一种...

    论文研究-基于中文分词的文本自动校对 .pdf

    基于中文分词的文本自动校对,颜军,潘昊,中文文本自动校对是自然语言处理领域中有着广阔应用前景的一个研究方向。本文依据中文分词的结果以及常见错误的特点,结合三元字

    #中文停用词表#中文分词#

    中文分词常见的停用词表

    常见中文停用词表

    常见中文停用词表 可用于中文分词 常见中文停用词表 可用于中文分词 常见中文停用词表 可用于中文分词 常见中文停用词表 可用于中文分词

    分词使用的常见停用词库汇总

    汇总自《中文停用词表》、《哈工大停用词表》、《百度停用词表》、《四川大学机器智能实验室停用词表》以及《中文停用词词库》经过汇总去重后得到的停用词库。仅供分享学习。

    分词辅助类C#实现帮助类

    在一些语言中(如中文),基于规则的分词方法可以取得很好的效果。 2. 统计和机器学习方法:统计和机器学习方法利用数据和模型来进行分词。它们可以使用已标记的语料库进行训练,并根据上下文和统计特性来预测分词...

    Lucene.Net+盘古分词C# Demo

    Lucene.Net+盘古分词是一个常见的中文信息检索组合。但是随着盘古分词停止更新,与Lucene.Net3.0无法兼容。为了使得大家少走弯路,本人利用Lucene.Net2.9+盘古分词2.3搭建了一个Demo,里面包含了两个模块的源码,方便...

    基于中文分词的文本校对

    一种较新的文本自动校对方法 中文文本自动校对是自然语言处理领域中有着广阔...依据中文分词的结果以及常见错误的特点,结合三元字模型的特点,提出了一种有效的文本校对方法,实验表明,该方法具有较高的准确率和召回率。

    Lucene.Net+盘古分词Demo

    Lucene.Net+盘古分词是一个常见的中文信息检索组合。但是随着盘古分词停止更新,与Lucene.Net3.0无法兼容。为了使得大家少走弯路,本人利用Lucene.Net2.9+盘古分词2.3搭建了一个Demo,里面包含了两个模块的源码,方便...

    ES 拼音分词器 https://github.com/medcl/elasticsearch-analysis-pinyin

    拼音分词器是一种在中文文本中将汉字转换为对应拼音的工具。它可以将中文文本分解为拼音首字母或完整拼音,并将其作为词汇进行索引和搜索。 拼音分词器的主要作用是为了支持拼音检索或拼音搜索,特别是在需要处理...

    Elasticsearch5.6.4 pinyin分词包下载

    拼音分词在日常生活中其实很常见,也许你每天都在用。 打开淘宝看一看吧,输入拼音”zhonghua”,下面会有包含”zhonghua”对应的中文”中华”的商品的提示: 拼音分词是根据输入的拼音提示对应的中文,通过拼音分词...

    18-文本分词1

    2. 常见分词框架对比http://ruby-china.org/topics/28000①BosonNLP:http://bosonnlp.com/http:

Global site tag (gtag.js) - Google Analytics