Solr 在mmseg4j中使用中文停止词（的、地、得）

Josh_Persistence

浏览: 1632379 次
性别:
来自: 上海

最近访客更多访客>>

reshinder

maxuanzhao

yh4s

依然任逍遥

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Solr

solr停止词 stopword mmseg4j 的地得

1. 从附件中下载中文停止词，如果有需要，你也可以下载英文停止词，操作步骤一样。

2. 可以在Tomcat的Solr 中的某个位置创建一个文件，比如叫stopwords.txt，此处我直接将stopwords.txt放在core目录下，即和schema.xml在同一个目录中。

3.将上面下载的中英文停止词加入到stopwords.txt中

4.如果你还不懂怎么在solr中配置mmseg4j，可参照我之前的博客。

5.修改schema.xml，

1）确保schema.xml中有这样的配置：

2) 在mmseg4j相应的field定义中加入该过滤器

<!-- mmseg4j-->
    <fieldType name="text_mmseg4j_complex"class="solr.TextField"positionIncrementGap="100" >
        <analyzer>
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"mode="complex"dicPath="dic"/>
 
            <filter class="solr.StopFilterFactory"ignoreCase="true"words="stopwords.txt" />
        </analyzer>
    </fieldType>
    <fieldType name="text_mmseg4j_maxword"class="solr.TextField"positionIncrementGap="100" >
        <analyzer>
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"mode="max-word"dicPath="dic"/>
 
        <filter class="solr.StopFilterFactory"ignoreCase="true"words="stopwords.txt" />
 
        </analyzer>
    </fieldType>
    <fieldType name="text_mmseg4j_simple"class="solr.TextField"positionIncrementGap="100" >
        <analyzer>
          <!--  
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/>   
            -->
            <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory"mode="simple"dicPath="dic"/>
 
        <filter class="solr.StopFilterFactory"ignoreCase="true"words="stopwords.txt" />
        </analyzer>
    </fieldType>
 
    <!-- mmseg4j-->

3）重启tomcat

测试你会发现相应的停止词如的、地、得等已经不会再影响分词结果。

1
顶

0
踩

分享到：

一看就懂的数据库范式介绍（1NF,2NF,3NF,BC ... | Solr Facet Field (Group by field)

2015-02-13 20:05
浏览 2626
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Solr 在mmseg4j中使用中文停止词（的、地、得）

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Solr 在mmseg4j中使用中文停止词（的、地、得）

评论

发表评论

相关推荐

Solr5.x 集成 Tomcat8.x (并新增一个core)

Solr 5.x的搭建（Solr自带的Jetty Server）与mmseg4j中文分词

Solr中的Field、CopyField、DynamicField

深入浅出Solr Cache

Slor5.x与mmseg4j的集成【使用solr自带的Jetty Server】

中文分词中的正向最大匹配与逆向最大匹配

SolrCloud之分布式索引及与Zookeeper的集成

Solr Facet Field (Group by field)

Solr 之Field，CopyField, DynamicField

Solr4.7.0中整合中文分词mmseg4j-1.9.1

Tomcat7中打印Solr（4.7.0）log - 配置log可以看成是我们配置Solr的一个必要操作

Solr4.x（4.7.0）中添加Solr实例(Core)

Tomcat7中搭建Solr 4.x(4.7.0)

Solr 4.x定时、实时增量索引 - 修改、删除和新增索引

Solr 4.x 全量索引 - 导入并索引数据库数据

最近访客更多访客>>