`

配置solr的schema.xml加入中文分词器

阅读更多
solr的schema.xml路径: apache-solr-3.5.0\example\solr\conf\schema.xml

1. 首先在<types></types>中加入fieldType。

这里使用mmseg.
在mmseg文件中, 打开readme.txt, 可以看到:

[color=blue]5、在 com.chenlb.mmseg4j.solr包里扩展solr tokenizerFactory。
在 solr的 schema.xml 中定义 field type如:
<fieldType name="textComplex" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="dic"/>
      </analyzer>
    </fieldType>
	<fieldType name="textMaxWord" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="dic"/>
      </analyzer>
    </fieldType>
	<fieldType name="textSimple" class="solr.TextField" >
      <analyzer>
        <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="n:/OpenSource/apache-solr-1.3.0/example/solr/my_dic"/>
      </analyzer>
    </fieldType>

   
dicPath 指定词库位置(每个MMSegTokenizerFactory可以指定不同的目录,当是相对目录时,是相对 solr.home 的目录),mode 指定分词模式(simple|complex|max-word,默认是max-word)。
[/color]

这里的dicPath是词库位置目录, 相对于solr.home目录。
所以要在solr/home目录中建立一个dic文件夹, 把词库文件放进去。

最后的dicPath是绝对路径。 没有的话就设置为dic即可

2. 将mmseg4j-all-1.8.5.jar放入到d:/lucene/solr/server/solr/WEB-INF/lib里。

3. 打开http://localhost:8080/solr/admin/analysis.jsp
选择type, 输入上面的fieldType name="xx"的xx值。

输入中文就可以进行分词了。



4. 设置field。
找到 <field name="title" type="text_general" indexed="true" stored="true" multiValued="true"/>
把type="text_general"修改为textComplex,那么我们建立的名为title的field,就会使用中文分词了。
分享到:
评论

相关推荐

    支持solr 5.3.0的IKAnalyzer中文分词器

    IKAnalyzer中文分词器本身已经不支持最新的solr 5,集成到solr中分词会报错,这里将解决了solr 5支持问题的最新IK包共享出来,希望能帮到各位! 附上IK在schema.xml中的配置: &lt;fieldType name="text_ik" class="...

    IKAnalyzer-solr4.x-update.zip

    通过继承Analyzer编写自定义类UseSmartIKAnalyzer和NotUseSmartIKAnalyzer,实现智能分词和最细粒度分词,支持solr4.7通过配置schema.xml实现不同的分词效果 &lt;fieldType name="text_ik" class="solr.TextField"&gt; ...

    ik-analyzer-solr7.zip

    1.ik中文分词器适配最新版本solr7和solr8,下载后解压,将target下的ik-analyzer-7.7.1.jar包放入Solr服务的`Jetty`或`Tomcat`的`webapp/WEB-INF/lib/`目录下。 2.将`resources`目录下的5个配置文件放入solr服务的`...

    solr6对应的IKAnalyzer分词器

    2. 引入分词器的jar文件:在`server/solr/RD-Product/conf/solrconfig.xml`中配置如下信息,将`rd-lib`这个文件夹下的所有jar包引入到服务中。 &lt;!-- 引入"contrib/rd-lib/"下所有jar文件 --&gt; ${solr.install.dir:../...

    tomcat集成solr服务器以及配置好了中文分词器

    只需要解压然后启动tomcat即可访问solr服务器,需要自行在apache-tomcat-solr-7.0.52\webapps\solr\solrhome\collection1\conf\schema.xml修改适合自己的配置的域即可

    solr-IKAnalyzer5分词器需要的依赖.zip

    solr-ik中文分词器资源包,包括ext.dic,,IKAnalyzer.cfg.xml,,ik-analyzer-solr5-5.x.jar,,managed-schema,,solr-analyzer-ik-5.1.0.jar,,stopword.dic solr-ik分词 solr中文分词 ik分词资源

    solr-ik分词器资源(包括schema)

    solr-ik中文分词器资源包,包括ext.dic,,IKAnalyzer.cfg.xml,,ik-analyzer-solr5-5.x.jar,,managed-schema,,solr-analyzer-ik-5.1.0.jar,,stopword.dic

    solar1.4环境配置

    solr-1.4.1 环境配置: 1、 下载所需软件,安装配置...在X:\solr\solr\conf当中有schema.xml文件,可以配置索引数据格式。 5、运行solr 启动Tomcat,访问http://localhost:8983 6、添加索引 7、添加中文分词

    solr所需资源下载(数据导入、分词器、数据库连接jar、配置文件、managed-schema)

    包括solr的所有资源文件文件清单如下: IKAnalyzer.cfg.xml ik-analyzer-solr5-5.x.jar solr-analyzer-ik-5.1.0.jar managed-schema mysql-connector-java-5.1.7-bin.jar solrconfig.xml data-config.xml ext.dic ...

    IKAnalyzer分词器 下载IKAnalyzer2012FF_u1.jar

    --配置IK分词器--&gt; 引用 &lt;fieldType name="text_ik" class="solr.TextField"&gt; &lt;!--索引时候的分词器--&gt; &lt;analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IK...

    中文分词器IK Analyzer 2012FF_hf1

    在solrcode的schema.xml文件中的配置如下: 配置中文分词器的fieldType: &lt;fieldType name="text_ik" class="solr.TextField"&gt; &lt;analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene....

    SOLR的应用教程

    3.6.4 Solr分词器、过滤器、分析器 42 3.6.5 Solr高亮使用 46 4 SolrJ的用法 46 4.1 搜索接口的调用实例 46 4.2 Solrj的使用说明 47 4.2.1 Adding Data to Solr 47 4.2.2 Directly adding POJOs to Solr 49 4.2.3 ...

    ikanalyzer分词器

    ik-analyzer.jar的类库和schema.xml配置

    中文分词工具word-1.0,Java实现的中文分词组件多种基于词典的分词算法

    2、配置schema指定分词器 将solr-4.7.1/example/solr/collection1/conf/schema.xml文件中所有的 &lt;tokenizer class="solr.WhitespaceTokenizerFactory"/&gt;和 &lt;tokenizer class="solr.StandardTokenizerFactory"/&gt;全部...

    ansj分词jar包

    solr配置ansj,managed-schema.xml中配置 &lt;fieldType name="text_ansj" class="solr.TextField" positionIncrementGap="100"&gt; &lt;tokenizer class="org.ansj.lucene.util.AnsjTokenizerFactory" isQuery="false"/...

    IKAnalyzer2012FF_u1.jar

    --配置IK分词器--&gt; 引用 &lt;fieldType name="text_ik" class="solr .TextField"&gt; &lt;!--索引时候的分词器--&gt; &lt;analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IK...

    IKAnalyzer2012FF_u1

    2、将IKAnalyzer.cfg.xml、stopword.dic拷贝到需要使用分词器的core的conf(盘符:\solr\server\solr\WEB-INF\classes)下面(注意:如果没有classe文件夹自己创建一个classes文件夹,方便配置自己的定义的词库) ...

    Solr4.3.1:配置好的Solr,分词器使用IK

    Solr4.3.1配置好的Solr,分词器使用IK。使用步骤:拷贝solr目录到web服务器,如:tomcat的webapp目录下。拷贝solr_home到任意目录,如:/home目录下。修改solr目录中的web.xml,配置solr home的路径为:/home/solr_...

    Solr的基本使用

    schema.xml,在SolrCore的conf目录下,它是Solr数据表配置文件,它定义了加入索引的数据的数据类型的。主要包括FieldTypes、Fields和其他的一些缺省设置。field:进行索引,需要创建document,document中包括了很多...

    tomcat8.5+jdk1.8+solr7.0.0+ik7.X+mysql5.7整合

    整合了tomcat和solr,和ik分词器 里面有对应JAR包 然后也连接了数据库,用得时候记得改data-config.xml 里面你得数据库地址和密码!!还有managed-schema这个里面得对应字段得名称和类型

Global site tag (gtag.js) - Google Analytics