前提是已经在Tomcat7下面配置好Solr4.0,详情参考:Solr4:Tomcat7下面配置Solr
注意:Solr4.0需要IKanalyzer 2012 FF以上版本。
1.下载IKAnalyzer包
下载地址:http://code.google.com/p/ik-analyzer/downloads/list
2.解压IK Analyzer 2012FF_hf1.zip包
用到其中三个文件:
IKAnalyzer2012FF_u1.jar,放到$CATALINA_HOME/webapps/solr/WEB-INF/lib/目录下
IKAnalyzer.cfg.xml,stopword.dic,放到$CATALINA_HOME/webapps/solr/WEB-INF/classes/目录下
3.设置IKAnalyzer中文分词
修改$SOLR_HOME/collection1/conf/schema.xml文件,在<types></types>中增加如下内容:
<fieldType name="text_ik" class="solr.TextField"> <analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/> <analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/> </fieldType>
查询采用IK自己的最大分词法,索引则采用它的细粒度分词法,各自配置了isMaxWordLength属性。
修改$SOLR_HOME/collection1/conf/schema.xml文件,在<fields></fields>中修改如下内容:
<field name="content" type="text_ik" indexed="false" stored="true" multiValued="true"/> <field name="text" type="text_ik" indexed="true" stored="false" multiValued="true"/> ...... <copyField source="content" dest="text"/>
也可以自己增加删除相关字段。
4.重建索引,查询即可
具体过程参考上一篇文章。或者是通过http://localhost:8080/solr/#/collection1/analysis,然后在Analyse Fieldname / FieldType:下拉选择框中选择"text_ik",关闭Verbose Output核选框,在Field Value (Index)与Field Value (Query)中输入中文句子,点击"Analyse Values"即可以看到分词结果。
顺便也贴下SmartChineseAnalyzer的配置
1.拷贝~/solr/contrib/analysis-extras/lucene-libs/lucene-analyzers-smartcn-4.0.0.jar到$CATALINA_HOME/webapps/solr/WEB-INF/lib/目录下
2.拷贝上述包中的stopwords.txt到$SOLR_HOME/collection1/conf/lang/stopwords_zh-cn.txt
3.修改$SOLR_HOME/collection1/conf/schema.xml文件,在<type></types>中增加如下内容:
<fieldType name="text_zh-cn" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/> <filter class="solr.SmartChineseWordTokenFilterFactory"/> <filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.PositionFilterFactory" /> <filter class="solr.StopFilterFactory" ignoreCase="false" words="lang/stopwords_zh-cn.txt" enablePositionIncrements="true"/> </analyzer> </fieldType>
4.其它省略
也可以比较IKAnalyzer与Lucene自带的SmartChineseSentenceTokenizerFactory的差别,可以通过http://localhost:8080/solr/#/collection1/analysis中选择不同的分词器来查看。
转载自:http://www.cnblogs.com/nayitian/archive/2013/01/18/2866733.html
相关推荐
solr分词 IKAnalyzer2012FF_hf1.rar,solr中文分词搜索
使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar solr-4.10.3下载地址:...
solr4.10使用的中文分词器,包括IKAnalyzer2012FF_u1.jar,IKAnalyzer.cfg.xml,stopword.dic,及Cloudera平台下安装solr分词器教程
此版本适用于高版本Solr4.x,IK 分词器 IK Analyzer 2012FF_hf1 Solr4.x
solr4.7+中文分词器IK Analyzer 2012FF_hf1相匹配,本人测试可以使用
内容包括:doc、IKAnalyzer.cfg.xml、IKAnalyzer2012FF_u1.jar、IKAnalyzer中文分词器V2012_FF使用手册.pdf、LICENSE.txt、NOTICE.txt、stopword.dic
使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar 具体操作如下: 引用 1.在/opt/cloudera/parcels/CDH/lib/...
IKAnalyzer2012FF_u1 ik solr分词器 非常好用。。。。。。
solr中的分词器,对于中文有更好的支持。剩下就是 混字数。混字数。混字数。混字数。混字数。混字数。混字数。
IKAnalyzer中文分词器-IKAnalyzer2012FF_u1.jar,solr
solr中文分词器,IKAnalyzer2012FF_u2 适用于solr 5.5.0版本
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、...
此版本适用于Solr4.x,IK 分词器 IK Analyzer 2012FF_hf1 Solr4.x
亲测可用的中文分词器,也可以到IK Analyzer官网下载,网址如下: https://code.google.com/archive/p/ik-analyzer/downloads 在solrcode的schema.xml文件中的配置如下: 配置中文分词器的fieldType: ...
1、将IKAnalyzer2012FF_u1.jar导入 盘符:\solr\server\solr\WEB-INF\lib中 (并且要有commons-io-2.3.jar,commons-logging-1.1.1.jar两个jar) 2、将IKAnalyzer.cfg.xml、stopword.dic拷贝到需要使用分词器的core...
ik分词jar包,包含一个中文分词的使用手册,供大家使用下载
solr的lucene的新版本接口都进行了修改,除非修改实现不然就没法向下兼容,但是我们也有办法的,我们可以利用他的分词工具自己封装一个TokenizerFactory,通过实现最新的接口就可以让solr新版本用上ik了。
.IKAnalyzer是一款中文分析器,应用于Solr搜索服务当中.附件为IK Analyzer 2012FF_hf1
solr5.X 集成中文分词ik-analyzer的包 https://github.com/EugenePig/ik-analyzer-solr5 最后编译日期2018年4月20日 jdk1.8.0_162编译后的包