elasticsearch 1.1.0 mmseg 英文数字分词

m635674608

浏览: 5021823 次
性别:
来自: 南京

最近访客更多访客>>

wusuosuo

yijiaomuqing

millerchu

xdung

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

分词器

elasticsearch 1.1.0 mmseg 插件的版本是1.2.2 版本。该版本没有解决英文数字分词问题。

比如 user123。分词后 user123

解决1：

mmseg插件升级 elasticsearch-analysis-mmseg-1.4.0。

https://github.com/medcl/elasticsearch-analysis-mmseg/commit/61b5e8199425c845a3060fe39f40e59868dd364b

index:
  analysis: 
    tokenizer:
      mmseg_maxword:
        type: mmseg
        seg_type: max_word
      mmseg_complex:
        type: mmseg
        seg_type: complex
    analyzer:
      mmseg_maxword:
        type: custom
        filter:
        - lowercase
        - cut_letter_digit
        tokenizer: mmseg_maxword
      mmseg:
        type: custom
        filter:
        - lowercase
        - cut_letter_digit
        tokenizer: mmseg_maxword
      mmseg_complex:
        type: custom
        filter:
        - lowercase
        tokenizer: mmseg_complex
#index.analysis.analyzer.default.type : "org.elasticsearch.index.analysis.MMsegAnalyzerProvider"
#index.analysis.analyzer.default.type : "ik"
index.analysis.analyzer.default.type : "mmseg"

解决2：

修改1.2.2 版本jar包中的MMSegAnalyzer，然后替换class

package com.chenlb.mmseg4j.analysis;

import java.io.File;
import java.io.Reader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.Analyzer.TokenStreamComponents;

import com.chenlb.mmseg4j.Dictionary;
import com.chenlb.mmseg4j.MaxWordSeg;
import com.chenlb.mmseg4j.Seg;

/**
 * 榛樿浣跨敤 max-word
 *
 * @see {@link SimpleAnalyzer}, {@link ComplexAnalyzer}, {@link MaxWordAnalyzer}
 *
 * @author chenlb
 */
public class MMSegAnalyzer extends Analyzer {

	protected Dictionary dic;

	/**
	 * @see Dictionary#getInstance()
	 */
	public MMSegAnalyzer() {
		dic = Dictionary.getInstance();
	}

	/**
	 * @param path 璇嶅簱璺緞
	 * @see Dictionary#getInstance(String)
	 */
	public MMSegAnalyzer(String path) {
		dic = Dictionary.getInstance(path);
	}

	/**
	 * @param path 璇嶅簱鐩綍
	 * @see Dictionary#getInstance(File)
	 */
	public MMSegAnalyzer(File path) {
		dic = Dictionary.getInstance(path);
	}

	public MMSegAnalyzer(Dictionary dic) {
		super();
		this.dic = dic;
	}

	protected Seg newSeg() {
		return new MaxWordSeg(dic);
	}

	public Dictionary getDict() {
		return dic;
	}

	/*@Override
	protected TokenStreamComponents createComponents(String fieldName, Reader reader) {
		return new TokenStreamComponents(new MMSegTokenizer(newSeg(), reader));
	}*/
	@Override
	protected TokenStreamComponents createComponents(String fieldName,
			Reader reader) {
		Tokenizer t = new MMSegTokenizer(newSeg(), reader);
		return new TokenStreamComponents(t, new CutLetterDigitFilter(t));
	}
	
	
}

分享到：

ElasticSearch的ik分词插件开发 | Elasticsearch中使用reiver-jdbc导入数据

2015-11-08 00:09
浏览 2372
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

elasticsearch 1.1.0 mmseg 英文数字分词

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

elasticsearch 1.1.0 mmseg 英文数字分词

评论

发表评论

相关推荐

Java开源分词系统IKAnalyzer学习（七） 词库加载分词

es 同义词 热更新 1.1版本

mmseg 同义词分析器 SolrSynonymParser

lucene4.7 分词器（三）

IKAnalyzer如何自定义远端词库

es 同义词 热更新

热更新 IK 分词使用方法

中文分词器IK和Paoding技术对比

mmseg 分词器 同义词总结

lucene版本升级到4.6.0以上之后使用mmseg4j分词器遇到的问题

elasticsearch 分词器配置注意事项

中文分词 mmseg4j 的词库格式

英文分词的算法和原理

中文分词原理

11大Java开源中文分词器的使用方法和分词效果对比

中文分词器性能比较

Lucene5学习之使用MMSeg4j分词器

IK,ansj,mmseg4j分词性能比较

布式搜索elasticsearch 中文分词集成

elasticsearch的实现全文检索

最近访客更多访客>>

Java开源分词系统IKAnalyzer学习（七）词库加载分词

es 同义词热更新 1.1版本

es 同义词热更新

mmseg 分词器同义词总结