elasticsearch 1.1.0 mmseg 插件的版本是1.2.2 版本。该版本没有解决英文数字分词问题。
比如 user123。分词后 user123
解决1:
mmseg插件升级 elasticsearch-analysis-mmseg-1.4.0。
https://github.com/medcl/elasticsearch-analysis-mmseg/commit/61b5e8199425c845a3060fe39f40e59868dd364b
index: analysis: tokenizer: mmseg_maxword: type: mmseg seg_type: max_word mmseg_complex: type: mmseg seg_type: complex analyzer: mmseg_maxword: type: custom filter: - lowercase - cut_letter_digit tokenizer: mmseg_maxword mmseg: type: custom filter: - lowercase - cut_letter_digit tokenizer: mmseg_maxword mmseg_complex: type: custom filter: - lowercase tokenizer: mmseg_complex #index.analysis.analyzer.default.type : "org.elasticsearch.index.analysis.MMsegAnalyzerProvider" #index.analysis.analyzer.default.type : "ik" index.analysis.analyzer.default.type : "mmseg"
解决2:
修改1.2.2 版本jar包中的MMSegAnalyzer,然后替换class
package com.chenlb.mmseg4j.analysis; import java.io.File; import java.io.Reader; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.Tokenizer; import org.apache.lucene.analysis.Analyzer.TokenStreamComponents; import com.chenlb.mmseg4j.Dictionary; import com.chenlb.mmseg4j.MaxWordSeg; import com.chenlb.mmseg4j.Seg; /** * 榛樿浣跨敤 max-word * * @see {@link SimpleAnalyzer}, {@link ComplexAnalyzer}, {@link MaxWordAnalyzer} * * @author chenlb */ public class MMSegAnalyzer extends Analyzer { protected Dictionary dic; /** * @see Dictionary#getInstance() */ public MMSegAnalyzer() { dic = Dictionary.getInstance(); } /** * @param path 璇嶅簱璺緞 * @see Dictionary#getInstance(String) */ public MMSegAnalyzer(String path) { dic = Dictionary.getInstance(path); } /** * @param path 璇嶅簱鐩綍 * @see Dictionary#getInstance(File) */ public MMSegAnalyzer(File path) { dic = Dictionary.getInstance(path); } public MMSegAnalyzer(Dictionary dic) { super(); this.dic = dic; } protected Seg newSeg() { return new MaxWordSeg(dic); } public Dictionary getDict() { return dic; } /*@Override protected TokenStreamComponents createComponents(String fieldName, Reader reader) { return new TokenStreamComponents(new MMSegTokenizer(newSeg(), reader)); }*/ @Override protected TokenStreamComponents createComponents(String fieldName, Reader reader) { Tokenizer t = new MMSegTokenizer(newSeg(), reader); return new TokenStreamComponents(t, new CutLetterDigitFilter(t)); } }
相关推荐
elasticsearch的中文分词器,mmseg分词器支持中文分词,也支持英文分词,维语分词,可以联系发布者,了解如何支持维语分词
分布式搜索elasticsearch1.1.0版本 中文分词集成,现在不支持bin/plugin -install medcl/elasticsearch-analysis-ik/1.1.0 版本的安装,直接解压安装ik和mmseg插件,看博文
elasticsearch-analysis-ik 是一个常用的中文分词器,在 Elasticsearch 中广泛应用于中文文本的分析和搜索。下面是 elasticsearch-analysis-ik 分词器的几个主要特点: 中文分词:elasticsearch-analysis-ik 是基于...
增加连续数字、字母、英语及其组合智能分词(ik_smart、ik_max_word、ik_indistinct、ik_smart_indistinct启用)支持lucence5.x以上版本。 文件说明:本zip包含IKAnalyzer的src及elasticsearch可运行插件plugins两...
适用于elasticsearch7.17.11版本的分词器插件安装包
适用于elasticsearch7.17.14版本的分词器插件安装包
elasticsearch7.8.0版本的IK分词器
适用于elasticsearch7.17.13版本的分词器插件安装包
elasticsearch-7.17.6及对应版本IK分词 适合人群:elasticsearch初学者 Elasticsearch 是位于 Elastic Stack 核心的分布式搜索和分析引擎。Logstash 和 Beats 有助于收集、聚合和丰富您的数据并将其存储在 Elastic...
elasticsearch的ik中文分词器,安装好elasticsearch后还需安装中文分词器
Elasticsearch 7.6.2 已集成ik分词器 解压后运行bin目录下,elasticsearch.bat文件
用于elasticsearch7.6.2配套的中文分词器,欢迎大家使用 下面是它的描述,用于elasticsearch7.6.2配套的中文分词器,
适用于elasticsearch7.17.10版本的分词器插件安装包
自定义elasticsearch分词插件,在网上找了一个空格分词的实现,主要看思路,方便大家写自己的分词插件
适用于elasticsearch7.17.9版本的分词器插件安装包
elasticSearch(ES) 最新版ik分词插件7.10 elasticsearch-analysis-ik-7.10.0
elasticsearch中文分词插件,解压至ES安装目录,如D:\works\elasticsearch-6.4.0\plugins\ik,注意,不用修改elasticsearch.yml,就可以直接使用了。
elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip ...
Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级...
Elasticsearch电商平台中文分词词库