1.solr分词的主要配置文件之一: schema.xml,添加IKAnalyzer 2012FF_hf1分词配置方式一如下:
<fieldType name="text_cn" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer" />
</fieldType>
2.将IKAnalyzer2012FF_u1.jar放到%SOLR_HOME%/example/solr-webapp/webapp/WEB-INF/lib下。
3.cd %SOLR_HOME%/example/执行:
java -jar start.jar
4.访问:http://localhost:8983/solr
选择coreName:collection1 -->Analysis,Analyse Fieldname / FieldType:这里选择我们定义的text_cn,接着执行中文分词测试:
5.由分词结果可知,IKAnalyzer的默认分词模式为细粒度分词,但有的时候我们想要却是智能分词。此版本去除了之前提供的IKTokenizerFactory,故此重新实现,让其支持智能分词。
实现代码如下:
package org.wltea.analyzer.lucene;
import java.io.Reader;
import java.util.Map;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.util.TokenizerFactory;
import org.apache.lucene.util.AttributeFactory;
public class IKTokenizerFactory extends TokenizerFactory{
private final boolean useSmart;
public IKTokenizerFactory(Map<String, String> args) {
super(args);
this.useSmart = getBoolean(args, "useSmart", false);
}
@Override
public Tokenizer create(AttributeFactory factory, Reader in) {
return new IKTokenizer(in,this.useSmart);
}
}
6.将此类打包到IKAnalyzer2012FF_u1.jar中,接下来修改schema.xml,添加第二种IKAnalyzer 2012FF_hf1分词配置方式,使其支持智能分词(useSmart用来制定是否使用智能分词):
<fieldType name="text_cn" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
7.重新启动solr,进行分词测试:
可以看到index采用的为默认的细粒度分词,query采用的为智能分词.
到此,简单的solr中文分词server搭建完毕,接下来准备使用spring-data-solr构建搜索,索引创建,更新,高亮等后续操作,且听下回忽悠。。。。
- 大小: 325.3 KB
- 大小: 252.6 KB
分享到:
相关推荐
solr中的分词器,对于中文有更好的支持。剩下就是 混字数。混字数。混字数。混字数。混字数。混字数。混字数。
solr分词 IKAnalyzer2012FF_hf1.rar,solr中文分词搜索
solr的lucene的新版本接口都进行了修改,除非修改实现不然就没法向下兼容,但是我们也有办法的,我们可以利用他的分词工具自己封装一个TokenizerFactory,通过实现最新的接口就可以让solr新版本用上ik了。
.IKAnalyzer是一款中文分析器,应用于Solr搜索服务当中.附件为IK Analyzer 2012FF_hf1
solr中文分析器IK Analyzer 2012FF_hf1 索引数据库使用, 用于索引时中文分析
使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar solr-4.10.3下载地址:...
此版本适用于高版本Solr4.x,IK 分词器 IK Analyzer 2012FF_hf1 Solr4.x
内容包括:doc、IKAnalyzer.cfg.xml、IKAnalyzer2012FF_u1.jar、IKAnalyzer中文分词器V2012_FF使用手册.pdf、LICENSE.txt、NOTICE.txt、stopword.dic
IK Analyzer 2012FF_hf1jar包 和源代码都有;下载地址https://code.google.com/archive/p/ik-analyzer/downloads
IKAnalyzer2012FF_u1.jar,同义词版本,本人亲测,木有问题,可以配置Solr的同义词,
此版本适用于Solr4.x,IK 分词器 IK Analyzer 2012FF_hf1 Solr4.x
IKAnalyzer中文分词器-IKAnalyzer2012FF_u1.jar,solr
ik分词jar包,包含一个中文分词的使用手册,供大家使用下载
solr4.7+中文分词器IK Analyzer 2012FF_hf1相匹配,本人测试可以使用
IKAnalyzer2012FF_u1 ik solr分词器 非常好用。。。。。。
使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IKAnalyzer2012_u6.jar 具体操作如下: 引用 1.在/opt/cloudera/parcels/CDH/lib/...
ikanalyzer2012ff_u1 对应 solr4.10.3版本 绝对好使