翻译自 Apache Solr Reference Guide
Analyzer:
analyzer负责检查这个field,然后生成一个token流,一般作为fieldType的一个字节点存在,比如:
<analyzer type="query"> <tokenizer class="solr.WhitespaceTokenizerFactory"/> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNu mbers="0" catenateAll="0" splitOnCaseChange="1"/> <filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.PorterStemFilterFactory"/> </analyzer>
任何复杂的field的分析都可以被分成独立的,一系列的处理步骤,你会发现solr中包含了大部分你需要用到的analyzer。在这个例子中,虽然没有制定特定的analyzer的类,但是他们的按照配置的流程依次走过,从 WhitespaceTokenizerFactory 开始,最后PorterStemFilterFactory 结束。通过配置analyzer的type可以指定是在 index阶段还是 query阶段使用。
Tokenizer:
tokenizer是把一个文本流切成一个个token的,就是传说中的分词,把一句话分成一段一段的,一些空格,停顿符啥的可能被扔了,一个token包含一些这个词的元信息在里面,比如说这个词的位置,当然分词的结果很可能是偏离原来意思的。如果就为了分词的话,一个analyzer中只有一个tokenizer,否则,这个输出会作为以下输入来使用,
Filter:
filter比tokenizer简单,是专门处理一个个token的, 把他们做变换或者是丢弃什么的。filter是接受一个token流,输出一个token流,所以可以是一个链条,处理的顺序跟schema里面的顺序是一样的,所以我们一般把通用的filter放到前面,其他放后面。
调试自己的anaylizer使用http://localhost:8983/solr/#/collection1/analysis 就可以了 ,十分方便。
相关推荐
IKAnalyzer-5.0.jar及solr-analyzer-extra-5.3.jar,用于solr5.3做中文分词
NULL 博文链接:https://jsxzzliang.iteye.com/blog/852460
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。此包兼容solr7.x
solr4.10.3+IK Analyzer For Solr4.x 发现资源不太好找,或者比较“贵 ” 自己发一个
中文分词工具ikanalyzer-solr5,包括ik-analyzer-solr5-5.x.jar和solr-analyzer-ik-5.1.0.jar两个jar包。
此为solr8的ikanalyzer中文分词包
ik-analyzer分词器,支持solr5-5.x
solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0
solr-ik分词器的资源包,包括:ext.dic;ikanalyzer.cfg.xml;ik-analyzer-solr5-5.x.jar;solr-analyzer-ik-5.1.0.jar;stopword.dic 五个文件
IKAnalyzer中文分词器本身已经不支持最新的solr 5,集成到solr中分词会报错,这里将解决了solr 5支持问题的最新IK包共享出来,希望能帮到各位! 附上IK在schema.xml中的配置: <fieldType name="text_ik" class="...
solr5.x(含5.4)可用的ikanalyzer中文分词 <fieldType name="text_ik" class="solr.TextField"> <analyzer type="index"> <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" /> ...
solr的IK分词器的两个jar包。solr的IK分词器的两个jar包。
solr6的中文分词器ik-analyzer-solr-6.0.jar,在solr上亲测可用
solr的中文分词器,可以配合solr对中文进行分词,solr7.0,solr8都可以用
solr-ik中文分词器资源包,包括ext.dic,,IKAnalyzer.cfg.xml,,ik-analyzer-solr5-5.x.jar,,managed-schema,,solr-analyzer-ik-5.1.0.jar,,stopword.dic solr-ik分词 solr中文分词 ik分词资源
支持solr5以上的ikanalyzer包和配置文件
solr分词 IKAnalyzer2012FF_hf1.rar,solr中文分词搜索
solr5+和ikanalyzer集成包主要内容包括:ext.dic、IKAnalyzer.cfg.xml和stopword.dic;ik-analyzer-solr5-5.x.jar 和 solr-analyzer-ik-5.1.0.jar
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" isMaxWordLength="false" useSmart="false"/> <filter class="solr.SynonymFilterFactory" expand="true" ignoreCase="true" synonyms=...