Analyzer:
The index analysis module acts as a configurable registry of Analyzers that can be used in order to both break indexed (analyzed) fields when a document is indexed and process query strings. It maps to the Lucene Analyzer.
index analysis module 就是一个可以配置的registry(登记处),在这里有很多的Analyzer. 每个Analyzer都可以在建立索引时,把document 划分成若干个index, 或者用于查询索引。 它(没看明白是 analysis 还是 analyzer) 对应于Lucene当中的 Analyzer.
Analyzers are (generally) composed of a single Tokenizer and zero or more TokenFilters.
Anaylyzer通常由 一个Tokenizer , 以及若干个 TokenFilter 组成。
A set of CharFilters can be associated with an analyzer to process the characters prior to other analysis steps.
一个Analyzer 可以对应与多个 CharFilter. CharFilter可以在其他Analysis步骤之前执行。
Char filters allow one to filter out the stream of text before it gets tokenized (used within an Analyzer).
An analyzer of type whitespace that is built using a Whitespace Tokenizer.
A tokenizer of type whitespace that divides text at whitespace.
空格Analyzer就是使用了空格tokenizer来建立的。
空格tokenizer: 就是用空格来划分文本的。
Snowball Analyzer
An analyzer of type snowball that uses the standard tokenizer, with standard filter, lowercase filter, stop filter, and snowball filter.
The Snowball Analyzer is a stemming analyzer from Lucene that is originally based on the snowball project from snowball.tartarus.org.
Snowball 分析器: 使用了标准分词器。(standard tokenizer) , 标准过滤器, 小写字母过滤器, stop filter, snowball filter.
Snowball分析器起源于 lucene 的snowball项目,后者是 snowball.tartarus.org
keyword analyzer:
An analyzer of type keyword that “tokenizes” an entire stream as a single token. This is useful for data like zip codes, ids and so on.
把某个 整串的字符视为一个单独的token. 这个analyzer对于 邮编,id 等的分析非常有效。
Stop Analyzer:
An analyzer of type stop that is built using a Lower Case Tokenizer, with Stop Token Filter.
Stop 分析其:使用了 Lower Case tokenizer 和 stop token filter。(后者是去掉字符串中的 stop word,然后再进行分析)
Language Analyzers:
A set of analyzers aimed at analyzing specific language text. The following types are supported: arabic, ... chinese, ... thai.
一组针对某些特定语言的 analyzer.
Custom Analyzer
An analyzer of type custom that allows to combine a Tokenizer with zero or more Token Filters, and zero or more Char Filters. The custom analyzer accepts a logical/registered name of the tokenizer to use, and a list of logical/registered names of token filters.
定制的分析器: 由 一个tokenizer, 任意个token filter, 任意个 char filter组成。
例子见:
http://www.elasticsearch.org/guide/reference/index-modules/analysis/custom-analyzer.html
分享到:
相关推荐
介绍了全文检索的基本概念,详细说明了全文检索框架Lucene的用法,并提供了样例代码。
org\wltea\analyzer\2012_u6\analyzer-2012_u6.jar时出错; error in opening zip file
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本
各位Java码农们苦苦找寻的IKAnalyzer-3.2.8.jar,直接使用maven命令行安装到本地仓库即可。也可以上传到nexus; mvn deploy:deploy-file -Dmaven.test.skip=true -Dfile=这个jar包存放的路径,不要带中文,不要带...
官网的lucene全文检索引擎工具包,下载后直接解压缩即可使用
* Apache Lucene全文检索和IKAnalyzer分词工具类 * <p>Company: 91注册码 * time:2014-04-22 * @author www.91zcm.com * @date * @version 1.1 */ public class LuceneUtil { /**索引创建的路径**/ ...
中文分词:org.wltea analyzer 版本:2012_u6 文件:analyzer-2012_u6.jar mvn install:install-file -Dfile=d:\analyzer-2012_u6.jar -DgroupId=org.wltea -DartifactId=analyzer -Dversion=2012_u6 -Dpackaging=...
#ElasticSearch的葡萄牙语语音插件 一个基于葡萄牙语的语音插件,基于语音分析插件。 ##安装 要安装,请将此存储库克隆到您的计算机中并运行: ./scripts/install.sh path_to_elasticsearch ... filter :
使用lucene-3.5和IKAnalyzer2012,实现基础的全文检索实现
IKAnalyzer 非常不错的分词器,JAVA版本
导入: import net.teamhot.lucene.ThesaurusAnalyzer; import org.apache.lucene.analysis.Analyzer; 实例化: Analyzer analyzer = new ThesaurusAnalyzer();
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> <analyzer type="query"> <tokenizer ...
analyzer-2012_u6.jar, maven中央仓库缺失,备份下载了。maven中央仓库缺失,备份下载了
ik-analyzer-8.1.1.jar
全文检索Lucene的中文分词器,IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。
IKAnalyzer5.2.1根据IKAnalyzer2012FF_u1_custom基础上修改,支持lucence5.x以上版本。增加连续数字、字母、英语及其组合智能分词(可关闭isIndistinct)支持lucence5.x以上版本。配置文件: <analyzer type=...
wireshark-filter - The Wireshark Network Analyzer 2.4.1 1
HttpAnalyzer HttpAnalyzer HttpAnalyzer HttpAnalyzer
使用solr时的中文分词jar包 ik-analyzer-7.5.0