solr中文分词。
solr5.0 自带一个中文分词包,lucene-analyzers-smartcn-5.0.0.jar。 在安装目录下搜寻找到,并copy到solr提供的web服务目录的lib目录下。
修改collection配置里面的schema.xml。新增字段类型。
<fieldType name="text_cn" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<!-- 此处需要配置主要的分词类 -->
<tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
<filter class="solr.SmartChineseWordTokenFilterFactory"/>
</analyzer>
<analyzer type="query">
<!-- 此处配置同上 -->
<tokenizer class="solr.SmartChineseSentenceTokenizerFactory"/>
<filter class="solr.SmartChineseWordTokenFilterFactory"/>
</analyzer>
</fieldType>
启动solr cloud服务,新建collection就好。
分享到:
相关推荐
solr 中文分词
solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0
solr中文分词器
由于网上提供的solr中文分词器大多不吃吃6.5以上,会报错(具体错误提示忘了),这里提供高版本,内含使用教程
solr中文分词器 IKAnalyzer 支持solr版本5.x到7.x 亲测可用,我用的是7.2版本
solr搜索框架的中文分词器文件及配置详解供大家下载,亲测可用.解压出来的jar包放到apache-tomcat-9.0.20\webapps\solr\WEB-INF\lib下(Tomcat项目里solr项目)其他三个文件放到apache-tomcat-9.0.20\webapps\solr\...
中文分词技术(中文分词原理)词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的...
该分词器支持solr7.x
Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。同时对其进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一...
solr 源码 + IK 分词器 + zookeeper。
lucene默认自带的分词器对中文支持并不好,所以对于中文索引的分词器,建议使用第三方开源的中文分词器
zip包含ik-analyzer-solr5-5.x.jar,ext.dic,IKAnalyzer.cfg.xml,stopword.dic。可以兼容solr7 ,亲测可用。
solr分词 IKAnalyzer2012FF_hf1.rar,solr中文分词搜索
包含内容:IKAnalyzer中文分词器V2012使用手册.pdf;机械词汇大全【官方推荐】;深蓝词库转换.exe;中文分词词库打包50万词汇;IKAnalyzer-5.0.jar
solr5 中文分词
solr 中文查询分词器,把一串字符分作多个词语进行查询
solr7.3.1种需要的中文IK分词器,其中包括IK分词的jar和配置文件还有mmseg4j
mmseg4j-solr-2.3.0-with-mmseg4j-core是Solr的中文分词包,该压缩包含有mmseg4j-core-1.10.0.jar和mmseg4j-solr-2.3.0.jar。
Solr5.5搜索引擎之分词原理说明.docx 介绍了Solr5.5内部使用的分词原理,有助于开发者自定义自己的分词器时掌握分词的基础知识。