solr查询不使用query analyzer中文分词的问题解决

全部 Linux 数据库敏捷编程数据结构软件测试项目管理 Oracle 编程综合互联网 Erlang MySQL

浏览 7784 次

锁定老帖子主题：solr查询不使用query analyzer中文分词的问题解决精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
flysnowxf 等级: 性别: 文章: 129 积分: 400 来自: 北京	发表时间：2011-01-18 最后修改：2011-01-18 相关推荐: solr6对应的IKAnalyzer分词器 10003---solr查询不使用query analyzer中文分词的问题解决支持solr 5.3.0的IKAnalyzer中文分词器 Solr使用IKAnalyzer中文分词器配置教程【Apache Solr系列】使用IKAnalyzer中文分词以及自定义分词字典更多相关推荐搜索引擎 schema.xml已配置query的中文分词器，但搜索的结果不尽如意，solr并没有按照分词来进行搜索。比如搜索“我要吃饭了”，并没有把包含“吃饭”的文档给搜索出来。解决过程如下： 1.query analyzer使用IK，配置如下： <analyzer type ="query" > <tokenizer class ="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false" /> 2.query analyzer效果如图：我要吃饭了，可分词为“要吃”和“吃饭”。如果搜索“我要吃饭了”，solr应该把这两个词以OR的方式去搜索，结果却一厢情愿。 3.引用http://blog.chenlb.com/2010/08/get-solr-analysis-word.html “这个问题的根本原因是 lucene / solr 使用的查询解析器生成的 Query 是短语查询。短语查询默认又是连续的词中没有其它字符。所以会找不到。目前我知的方式大概有二种： 1、查询前分词一遍，把分出的词用空格分开，再去搜索（叫它为查询预处理）。查询前分词可以上面的接口。 2、扩展 solr query parser，返回 boolean query。” 4.使用方法1解决问题即搜索前，先处理一下query analyzer的分词，然后再搜索。 solr分词的接口为：http://localhost:8080/solr/analysis/field?q=我要吃饭了如果为多核配置，类似于http://localhost:8080/solr/核心名/analysis/field?q=我要吃饭了结果返回： <response> <lst name="responseHeader"> <int name="status">0</int> <int name="QTime">0</int> </lst> <lst name="analysis"> <lst name="field_types" /> <lst name="field_names"> <lst name="text"> <lst name="query"> <arr name="org.wltea.analyzer.lucene.IKTokenizer"> <lst> <str name="text">要吃</str> <str name="type">word</str> <int name="start">1</int> <int name="end">3</int> <int name="position">2</int> </lst> <lst> <str name="text">吃饭</str> <str name="type">word</str> <int name="start">2</int> <int name="end">4</int> <int name="position">3</int> </lst> </arr> </lst> </lst> </lst> </lst> </response> 注意<lst name="query">元素下可能有filter。我们只需要解析以上的xml，就可以获取到分词列表了。最后，将分词列表组装成类似(要吃 OR 吃饭)的格式，就可以搜索到想要的结果。例如： http://localhost:8080/solr/select/?q=(要吃 OR 吃饭) 声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

论坛首页 → 综合技术版

跳转论坛: