`
xiaoxiao_0311
  • 浏览: 23382 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

新手学搜索之Schema.xml详解

阅读更多
本文以solr的example中schema.xml为例子,抛砖引玉之用
schema.xml位于solr/conf/目录下,类似于数据表配置文件,其中主要分为几部分:类型定义,字段定义,其它定义。

types定义了加入索引的数据的数据类型,主要包括type、fields和其他的一些缺省设置。

1、先来看下type节点,这里面定义FieldType子节点,包括name,class,positionIncrementGap等一些参数。

name:就是这个FieldType的名称。
class:指向org.apache.solr.analysis包里面对应的class名称,用来定义这个类型的行为。
view plaincopy to clipboardprint?

代码
<schema name="example" version="1.2">     
  <types>     
    <fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/>     
    <fieldType name="boolean" class="solr.BoolField" sortMissingLast="true" omitNorms="true"/>     
    <fieldtype name="binary" class="solr.BinaryField"/>     
    <fieldType name="int" class="solr.TrieIntField" precisionStep="0" omitNorms="true"      
                                                                positionIncrementGap="0"/>     
    <fieldType name="float" class="solr.TrieFloatField" precisionStep="0" omitNorms="true"      
                                                                positionIncrementGap="0"/>     
    <fieldType name="long" class="solr.TrieLongField" precisionStep="0" omitNorms="true"      
                                                                positionIncrementGap="0"/>     
    <fieldType name="double" class="solr.TrieDoubleField" precisionStep="0" omitNorms="true"      
                                                                positionIncrementGap="0"/>     
  ...     
  </types>     
  ...     
</schema>    
<schema name="example" version="1.2"> <types> <fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/> <fieldType name="boolean" class="solr.BoolField" sortMissingLast="true" omitNorms="true"/> <fieldtype name="binary" class="solr.BinaryField"/> <fieldType name="int" class="solr.TrieIntField" precisionStep="0" omitNorms="true" positionIncrementGap="0"/> <fieldType name="float" class="solr.TrieFloatField" precisionStep="0" omitNorms="true" positionIncrementGap="0"/> <fieldType name="long" class="solr.TrieLongField" precisionStep="0" omitNorms="true" positionIncrementGap="0"/> <fieldType name="double" class="solr.TrieDoubleField" precisionStep="0" omitNorms="true" positionIncrementGap="0"/> ... </types> ... </schema>
必要的时候fieldType还需要自己定义这个类型的数据在建立索引和进行查询的时候要使用的分析器analyzer,包括分词和过滤,如下:


代码
view plaincopy to clipboardprint?   
<fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100">     
  <analyzer>     
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>     
  </analyzer>     
</fieldType>     
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">     
  <analyzer type="index">    
view plaincopy to clipboardprint? <fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.WhitespaceTokenizerFactory"/> </analyzer> </fieldType> <fieldType name="text" class="solr.TextField" positionIncrementGap="100"> <analyzer type="index">
    <!--这个分词包是空格分词,在向索引库添加text类型的索引时,Solr会首先用空格进行分词  然后把分词结果依次使用指定的过滤器进行过滤,最后剩下的结果,才会加入到索引库中以备查询。
      注意:Solr的analysis包并没有带支持中文的包,需要自己添加中文分词器,我使用的是IKAnalyzer。  
  
代码
-->     
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>     
        <!-- in this example, we will only use synonyms at query time     
        <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt"      
                                                  ignoreCase="true" expand="false"/>     
        -->     
        <!-- Case insensitive stop word removal.     
          add enablePositionIncrements=true in both the index and query     
          analyzers to leave a 'gap' for more accurate phrase queries.     
        -->     
      <filter class="solr.StopFilterFactory"     
                ignoreCase="true"     
                words="stopwords.txt"     
                enablePositionIncrements="true"     
                />     
      <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1"      
              generateNumberParts="1" catenateWords="1" catenateNumbers="1"      
              catenateAll="0" splitOnCaseChange="1"/>     
      <filter class="solr.LowerCaseFilterFactory"/>     
      <filter class="solr.SnowballPorterFilterFactory" language="English"      
                                   protected="protwords.txt"/>     
    </analyzer>     
    <analyzer type="query">     
      <tokenizer class="solr.WhitespaceTokenizerFactory"/>     
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true"           expand="true"/>
        <filter class="solr.StopFilterFactory"     
                ignoreCase="true"     
                words="stopwords.txt"     
                enablePositionIncrements="true"     
                />     
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1"      
                generateNumberParts="1" catenateWords="0" catenateNumbers="0"      
                                        catenateAll="0" splitOnCaseChange="1"/>     
        <filter class="solr.LowerCaseFilterFactory"/>     
        <filter class="solr.SnowballPorterFilterFactory" language="English"      
                                              protected="protwords.txt"/>     
      </analyzer>     
</fieldType>    
--> <tokenizer class="solr.WhitespaceTokenizerFactory"/> <!-- in this example, we will only use synonyms at query time <filter class="solr.SynonymFilterFactory" synonyms="index_synonyms.txt" ignoreCase="true" expand="false"/> --> <!-- Case insensitive stop word removal. add enablePositionIncrements=true in both the index and query analyzers to leave a 'gap' for more accurate phrase queries. --> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /> <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/> <filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.SnowballPorterFilterFactory" language="English" protected="protwords.txt"/> </analyzer> <analyzer type="query"> <tokenizer class="solr.WhitespaceTokenizerFactory"/> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /> <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/> <filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.SnowballPorterFilterFactory" language="English" protected="protwords.txt"/> </analyzer> </fieldType>
2、再来看下fields节点内定义具体的字段(类似数据库的字段),含有以下属性:

name:字段名
type:之前定义过的各种FieldType
indexed:是否被索引
stored:是否被存储(如果不需要存储相应字段值,尽量设为false)
multiValued:是否有多个值(对可能存在多值的字段尽量设置为true,避免建索引时抛出错误)

代码
  
<fields>     
    <field name="id" type="integer" indexed="true" stored="true" required="true" />     
    <field name="name" type="text" indexed="true" stored="true" />     
    <field name="summary" type="text" indexed="true" stored="true" />     
    <field name="author" type="string" indexed="true" stored="true" />     
    <field name="date" type="date" indexed="false" stored="true" />     
    <field name="content" type="text" indexed="true" stored="false" />     
    <field name="keywords" type="keyword_text" indexed="true" stored="false" multiValued="true" />         
    <field name="all" type="text" indexed="true" stored="false" multiValued="true"/>     
</fields>    

3、建议建立一个拷贝字段,将所有的 全文本 字段复制到一个字段中,以便进行统一的检索:
以下是拷贝设置:
代码
view plaincopy to clipboardprint?   
<copyField source="name" dest="all"/>     
<copyField source="summary" dest="all"/>    
view plaincopy to clipboardprint? <copyField source="name" dest="all"/> <copyField source="summary" dest="all"/>

4、动态字段,没有具体名称的字段,用dynamicField字段

如:name为*_i,定义它的type为int,那么在使用这个字段的时候,任务以_i结果的字段都被认为符合这个定义。如name_i, school_i


代码
view plaincopy to clipboardprint?   
<dynamicField name="*_i"  type="int"    indexed="true"  stored="true"/>     
<dynamicField name="*_s"  type="string"  indexed="true"  stored="true"/>     
<dynamicField name="*_l"  type="long"   indexed="true"  stored="true"/>     
<dynamicField name="*_t"  type="text"    indexed="true"  stored="true"/>     
<dynamicField name="*_b"  type="boolean" indexed="true"  stored="true"/>     
<dynamicField name="*_f"  type="float"  indexed="true"  stored="true"/>     
<dynamicField name="*_d"  type="double" indexed="true"  stored="true"/>     
<dynamicField name="*_dt" type="date"    indexed="true"  stored="true"/>    
view plaincopy to clipboardprint? <dynamicField name="*_i" type="int" indexed="true" stored="true"/> <dynamicField name="*_s" type="string" indexed="true" stored="true"/> <dynamicField name="*_l" type="long" indexed="true" stored="true"/> <dynamicField name="*_t" type="text" indexed="true" stored="true"/> <dynamicField name="*_b" type="boolean" indexed="true" stored="true"/> <dynamicField name="*_f" type="float" indexed="true" stored="true"/> <dynamicField name="*_d" type="double" indexed="true" stored="true"/> <dynamicField name="*_dt" type="date" indexed="true" stored="true"/>

schema.xml文档注释中的信息:

1、为了改进性能,可以采取以下几种措施:

将所有只用于搜索的,而不需要作为结果的field(特别是一些比较大的field)的stored设置为false
将不需要被用于搜索的,而只是作为结果返回的field的indexed设置为false
删除所有不必要的copyField声明
为了索引字段的最小化和搜索的效率,将所有的 text fields的index都设置成field,然后使用copyField将他们都复制到一个总的 text field上,然后对他进行搜索。
为了最大化搜索效率,使用java编写的客户端与solr交互(使用流通信)
在服务器端运行JVM(省去网络通信),使用尽可能高的Log输出等级,减少日志量。
2、<schema name="example" version="1.2">

name:标识这个schema的名字
version:现在版本是1.2
3、filedType

代码
<fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true" />  
<fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true" />

name:标识而已。
class和其他属性决定了这个fieldType的实际行为。(class以solr开始的,都是在org.appache.solr.analysis包下)
可选的属性:

sortMissingLast和sortMissingFirst两个属性是用在可以内在使用String排序的类型上(包括:string,boolean,sint,slong,sfloat,sdouble,pdate)。
sortMissingLast="true",没有该field的数据排在有该field的数据之后,而不管请求时的排序规则。
sortMissingFirst="true",跟上面倒过来呗。
2个值默认是设置成false
StrField类型不被分析,而是被逐字地索引/存储。

StrField和TextField都有一个可选的属性“compressThreshold”,保证压缩到不小于一个大小(单位:char)


代码
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">  
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
solr.TextField 允许用户通过分析器来定制索引和查询,分析器包括一个分词器(tokenizer)和多个过滤器(filter)

positionIncrementGap:可选属性,定义在同一个文档中此类型数据的空白间隔,避免短语匹配错误。

代码
<tokenizer class="solr.WhitespaceTokenizerFactory" />  
<tokenizer class="solr.WhitespaceTokenizerFactory" />

空格分词,精确匹配。


代码
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1" />  
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1" />

在分词和匹配时,考虑 "-"连字符,字母数字的界限,非字母数字字符,这样 "wifi"或"wi fi"都能匹配"Wi-Fi"。


代码
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true"
expand="true" />  
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />

同义词

代码
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" 
enablePositionIncrements="true" />  
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />

在禁用字(stopword)删除后,在短语间增加间隔

stopword:即在建立索引过程中(建立索引和搜索)被忽略的词,比如is this等常用词。在conf/stopwords.txt维护。

4、fields


代码
<field name="id" type="string" indexed="true" stored="true" required="true" />  
<field name="id" type="string" indexed="true" stored="true" required="true" />

name:标识而已。
type:先前定义的类型。
indexed:是否被用来建立索引(关系到搜索和排序)
stored:是否储存
compressed:[false],是否使用gzip压缩(只有TextField和StrField可以压缩)
mutiValued:是否包含多个值
omitNorms:是否忽略掉Norm,可以节省内存空间,只有全文本field和need an index-time boost的field需要norm。(具体没看懂,注释里有矛盾)
termVectors:[false],当设置true,会存储 term vector。当使用MoreLikeThis,用来作为相似词的field应该存储起来。
termPositions:存储 term vector中的地址信息,会消耗存储开销。
termOffsets:存储 term vector 的偏移量,会消耗存储开销。
default:如果没有属性需要修改,就可以用这个标识下。
<field name="text" type="text" indexed="true" stored="false" multiValued="true" />

包罗万象(有点夸张)的field,包含所有可搜索的text fields,通过copyField实现。


代码
<copyField source="cat" dest="text" />   
  
  <copyField source="name" dest="text" />   
  <copyField source="manu" dest="text" />   
  <copyField source="features" dest="text" />   
  <copyField source="includes" dest="text" />  
<copyField source="cat" dest="text" /> <copyField source="name" dest="text" /> <copyField source="manu" dest="text" /> <copyField source="features" dest="text" /> <copyField source="includes" dest="text" />
在添加索引时,将所有被拷贝field(如cat)中的数据拷贝到text field中

作用:

将多个field的数据放在一起同时搜索,提供速度
将一个field的数据拷贝到另一个,可以用2种不同的方式来建立索引。

代码
<dynamicField name="*_i" type="int" indexed="true" stored="true" />  
<dynamicField name="*_i" type="int" indexed="true" stored="true" />

如果一个field的名字没有匹配到,那么就会用动态field试图匹配定义的各种模式。

"*"只能出现在模式的最前和最后
较长的模式会被先去做匹配
如果2个模式同时匹配上,最先定义的优先

代码
<dynamicField name="*" type="ignored" multiValued="true" />  
<dynamicField name="*" type="ignored" multiValued="true" />

如果通过上面的匹配都没找到,可以定义这个,然后定义个type,当String处理。(一般不会发生)

但若不定义,找不到匹配会报错。

5、其他一些标签


代码
<uniqueKey>id</uniqueKey>  
<uniqueKey>id</uniqueKey>

文档的唯一标识,必须填写这个field(除非该field被标记required="false"),否则solr建立索引报错。


代码
<defaultSearchField>text</defaultSearchField>  
<defaultSearchField>text</defaultSearchField>

如果搜索参数中没有指定具体的field,那么这是默认的域。


代码
<solrQueryParser defaultOperator="OR" />  
<solrQueryParser defaultOperator="OR" />

配置搜索参数短语间的逻辑,可以是"AND|OR"。


<!--http://blog.sina.com.cn/s/blog_5ddc071f0100oyu5.html参考-->
分享到:
评论

相关推荐

    mycat 使用demo

    **分布式数据库中间件Mycat详解与实战演示** 在当今大数据时代,单体数据库往往无法满足高并发、海量数据的处理需求。此时,分布式数据库中间件如Mycat应运而生,它能够将单一数据库扩展到多个节点,实现水平扩展,...

    DIXml_4.0.0.rar

    《DIXml_4.0.0:Delphi中的XML处理库详解》 XML(Extensible Markup Language)是一种被广泛应用于数据交换、配置文件和文档存储的标记语言。在Delphi编程环境中,开发者经常会遇到需要解析和操作XML文档的需求。DI...

    [新手-图文]整合ssm框架-从mybatis到spring-mybatis再到ssm-sping-mybatis-spingmvc

    ### 整合SSM框架详解:从MyBatis到Spring-MyBatis再到SSM #### 一、准备工作 在开始整合SSM框架之前,我们需要完成一些基础的准备工作。 ##### 1.1 Jar包准备 - **MyBatis**:用于持久层操作的核心库。 - **...

    j2ee SSH 整合笔记,献于新手。。

    ### J2EE SSH整合知识点详解 #### 一、概述 SSH框架是指Spring、Struts以及Hibernate这三个开源框架的集成应用,常被用于构建企业级Java应用程序。本文将围绕如何实现这三个框架的有效集成展开讨论,旨在为新手提供...

    mycat 1.6 win和linux版

    6. **配置文件详解**:如`server.xml`、`schema.xml`、`rule.xml`等,分别用于配置服务器、数据库分片规则和SQL路由规则。 7. **Mycat监控**:Mycat提供了监控界面,可以实时查看系统状态、连接数、SQL执行情况等,...

    Masanari Designer生成xml过程总结

    《Masanari Designer生成XML过程详解》 Masanari Designer是一款强大的工具,它主要用于帮助开发者高效地生成XML文件。在软件开发中,XML(Extensible Markup Language)是一种用于存储和传输数据的标记语言,因其...

    XML-webservice的基础 强大的交换工具

    XSD(XML Schema Definition)是一种用于描述XML文档结构的标准语言。通过XSD,开发者可以定义XML文档中的元素、属性、数据类型等,确保数据的一致性和准确性。XSD支持复杂的结构定义,包括简单类型(如字符串、数字...

    XML Visual QuickStart Guide, 2nd Edition

    自2001年第一版《XML Visual QuickStart Guide》出版以来,XML已经成为了跨平台数据交换的重要标准之一。 #### 二、书籍概述 《XML Visual QuickStart Guide, 第二版》由Kevin Howard Goldberg编写,由Peachpit ...

    dubbo整合springboot新手入门教程详解

    dubbo整合springboot新手入门教程详解 dubbo是一款高性能、基于Java的RPC框架,提供了分布式系统的服务治理、流量管理、服务发现、路由规则等功能,能够帮助开发者快速构建高可用、高性能的微服务系统。在本教程中...

    Spring Security 新手入门级maven实例

    **Spring Security新手入门级Maven实例详解** Spring Security是一个强大且高度可定制的身份验证和访问控制框架,用于Java和Java EE应用。它为应用程序提供了全面的安全解决方案,包括用户认证、授权以及安全配置。...

    XML编程从入门到精通

    - **XML Schema**:一种更强大的方式来定义XML文档的结构和约束,相较于DTD提供了更多的类型检查支持。 - **XML DR (Document Routing)**:用于处理XML文档的路由信息,如文档的目的地等。 - **命名空间**:为了解决...

    Ext Direct Spring 参考手册

    服务器端方法是ExtDirectSpring的核心组成部分之一,用于定义客户端如何与服务器进行通信。根据不同的应用场景,可以定义以下几种类型的方法: - **简单方法**:最基础的方法类型,用于处理简单的请求。 - **带命名...

    java新手必读,一些入门知识

    ### Java新手必读知识点详解 #### 一、Java开发环境搭建与配置 1. **JDK**: JDK(Java Development Kit)是Java开发工具包,包含了Java运行环境(JRE)、Java虚拟机(JVM)以及Java工具和库。从JDK 1.1.8版本开始,...

    十天掌握VB基础第二讲

    - **imsmd_rootv1p2p1.xsd、imscp_rootv1p1p2.xsd、adlcp_rootv1p2.xsd、ims_xml.xsd**:这些都是XML Schema Definition (XSD) 文件,用于定义imsmanifest.xml和其他XML文件的结构和约束。 - **course**:可能是一...

    java web视频摘要.doc

    此外,还深入探讨了XML的DTD(Document Type Definition)和XML Schema两种约束机制,这些机制用于验证XML文档的结构合法性,确保数据的一致性。 ### 2. HTTP协议详解 HTTP(Hypertext Transfer Protocol)是Web...

    Mycat-1.6.7.3.zip

    其中,`conf`目录包含了一系列配置文件,如`schema.xml`,这是Mycat的核心配置文件,定义了数据节点、库、表的映射关系以及分片规则。我们需要在此文件中修改数据库的密码,确保Mycat能够正确连接到后端的数据库...

    java新手教程--入伍篇

    - **XML基础与应用**:讲解XML(可扩展标记语言)的概念、结构与用途,探讨XML数据处理技术,如DOM、XPath等在Java中的应用,以及XML Schema的数据类型定义。 #### 六、JavaScript入门 - **JavaScript语言特征**:...

    dom4j(2.1.1+ 2.0.2+ 1.6.1).zip

    无论是新手还是经验丰富的开发者,DOM4J都是值得掌握的技能之一。 **总结** DOM4J是一个高效的XML处理库,提供多种版本以适应不同Java环境。每个版本都有其特定的优势和适用场景,开发者可以根据项目需求选择合适的...

Global site tag (gtag.js) - Google Analytics