`

elasticsearch中文分词集成

阅读更多
elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍下两者的用法,其实都差不多的,先安装插件,命令行:
安装ik插件:

plugin -install medcl/elasticsearch-analysis-ik/1.1.0 

下载ik相关配置词典文件到config目录

cd config 
wget http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip --no-check-certificate 
unzip ik.zip 
rm ik.zip 
安装mmseg插件:

bin/plugin -install medcl/elasticsearch-analysis-mmseg/1.1.0 
下载相关配置词典文件到config目录

cd config 
wget http://github.com/downloads/medcl/elasticsearch-analysis-mmseg/mmseg.zip --no-check-certificate 
unzip mmseg.zip 
rm mmseg.zip 
分词配置

ik分词配置,在elasticsearch.yml文件中加上

index:  
  analysis:                     
    analyzer:        
      ik:  
          alias: [ik_analyzer]  
          type: org.elasticsearch.index.analysis.IkAnalyzerProvider  


index.analysis.analyzer.ik.type:"ik"  

这两句的意义相同

mmseg分词配置,也是在在elasticsearch.yml文件中
index:  
  analysis:  
    analyzer:  
      mmseg:  
          alias: [news_analyzer, mmseg_analyzer]  
          type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider  


index.analysis.analyzer.default.type : "mmseg"  


mmseg分词还有些更加个性化的参数设置如下
index:  
  analysis:  
    tokenizer:  
      mmseg_maxword:  
          type: mmseg  
          seg_type: "max_word"  
      mmseg_complex:  
          type: mmseg  
          seg_type: "complex"  
      mmseg_simple:  
          type: mmseg  
          seg_type: "simple"  

这样配置完后插件安装完成,启动es就会加载插件。

定义mapping

在添加索引的mapping时就可以这样定义分词器
{  
   "page":{  
      "properties":{  
         "title":{  
            "type":"string",  
            "indexAnalyzer":"ik",  
            "searchAnalyzer":"ik"  
         },  
         "content":{  
            "type":"string",  
            "indexAnalyzer":"ik",  
            "searchAnalyzer":"ik"  
         }  
      }  
   }  
}  

indexAnalyzer为索引时使用的分词器,searchAnalyzer为搜索时使用的分词器。

java mapping代码如下:
XContentBuilder content = XContentFactory.jsonBuilder().startObject()  
        .startObject("page")  
          .startObject("properties")         
            .startObject("title")  
              .field("type", "string")             
              .field("indexAnalyzer", "ik")  
              .field("searchAnalyzer", "ik")  
            .endObject()   
            .startObject("code")  
              .field("type", "string")           
              .field("indexAnalyzer", "ik")  
              .field("searchAnalyzer", "ik")  
            .endObject()       
          .endObject()  
         .endObject()  
       .endObject()  

定义完后操作索引就会以指定的分词器来进行分词。

附:
ik分词插件项目地址:https://github.com/medcl/elasticsearch-analysis-ik
mmseg分词插件项目地址:https://github.com/medcl/elasticsearch-analysis-mmseg
如果觉得配置麻烦,也可以下载个配置好的es版本,地址如下:https://github.com/medcl/elasticsearch-rtf

另:
http://www.searchtech.pro/articles/2013/02/18/1361190717673.html
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics