新手学搜索之Schema.xml详解 -

xiaoxiao_0311

浏览: 23382 次
性别:
来自: 北京

最近访客更多访客>>

appleyuchi

u013080011

NASA8

spiderworking

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

新手学搜索之Schema.xml详解

博客分类：

搜索引擎

XML Solr 全文检索 JVM Apache

本文以solr的example中schema.xml为例子，抛砖引玉之用
schema.xml位于solr/conf/目录下，类似于数据表配置文件，其中主要分为几部分：类型定义，字段定义，其它定义。

types定义了加入索引的数据的数据类型，主要包括type、fields和其他的一些缺省设置。

1、先来看下type节点，这里面定义FieldType子节点，包括name,class,positionIncrementGap等一些参数。

name：就是这个FieldType的名称。
class：指向org.apache.solr.analysis包里面对应的class名称，用来定义这个类型的行为。
view plaincopy to clipboardprint?

代码
<schema name="example" version="1.2">
<types>
    <fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/>
    <fieldType name="boolean" class="solr.BoolField" sortMissingLast="true" omitNorms="true"/>
    <fieldtype name="binary" class="solr.BinaryField"/>
    <fieldType name="int" class="solr.TrieIntField" precisionStep="0" omitNorms="true"
                                                                positionIncrementGap="0"/>
    <fieldType name="float" class="solr.TrieFloatField" precisionStep="0" omitNorms="true"
                                                                positionIncrementGap="0"/>
    <fieldType name="long" class="solr.TrieLongField" precisionStep="0" omitNorms="true"
                                                                positionIncrementGap="0"/>
    <fieldType name="double" class="solr.TrieDoubleField" precisionStep="0" omitNorms="true"
                                                                positionIncrementGap="0"/>
...
</types>
...
</schema>
<schema name="example" version="1.2"> <types> <fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/> <fieldType name="boolean" class="solr.BoolField" sortMissingLast="true" omitNorms="true"/> <fieldtype name="binary" class="solr.BinaryField"/> <fieldType name="int" class="solr.TrieIntField" precisionStep="0" omitNorms="true" positionIncrementGap="0"/> <fieldType name="float" class="solr.TrieFloatField" precisionStep="0" omitNorms="true" positionIncrementGap="0"/> <fieldType name="long" class="solr.TrieLongField" precisionStep="0" omitNorms="true" positionIncrementGap="0"/> <fieldType name="double" class="solr.TrieDoubleField" precisionStep="0" omitNorms="true" positionIncrementGap="0"/> ... </types> ... </schema>
必要的时候fieldType还需要自己定义这个类型的数据在建立索引和进行查询的时候要使用的分析器analyzer，包括分词和过滤，如下：

代码
view plaincopy to clipboardprint?
<fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100">
<analyzer>
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
</analyzer>
</fieldType>
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
view plaincopy to clipboardprint? <fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.WhitespaceTokenizerFactory"/> </analyzer> </fieldType> <fieldType name="text" class="solr.TextField" positionIncrementGap="100"> <analyzer type="index">
    
    <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        
        
      <filter class="solr.StopFilterFactory"
                ignoreCase="true"
                words="stopwords.txt"
                enablePositionIncrements="true"
                />
      <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1"
              generateNumberParts="1" catenateWords="1" catenateNumbers="1"
              catenateAll="0" splitOnCaseChange="1"/>
      <filter class="solr.LowerCaseFilterFactory"/>
      <filter class="solr.SnowballPorterFilterFactory" language="English"
                                   protected="protwords.txt"/>
    </analyzer>
    <analyzer type="query">
      <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true"           expand="true"/>
        <filter class="solr.StopFilterFactory"
                ignoreCase="true"
                words="stopwords.txt"
                enablePositionIncrements="true"
                />
        <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1"
                generateNumberParts="1" catenateWords="0" catenateNumbers="0"
                                        catenateAll="0" splitOnCaseChange="1"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.SnowballPorterFilterFactory" language="English"
                                              protected="protwords.txt"/>
      </analyzer>
</fieldType>
--> <tokenizer class="solr.WhitespaceTokenizerFactory"/>   <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /> <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1"/> <filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.SnowballPorterFilterFactory" language="English" protected="protwords.txt"/> </analyzer> <analyzer type="query"> <tokenizer class="solr.WhitespaceTokenizerFactory"/> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" /> <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1"/> <filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.SnowballPorterFilterFactory" language="English" protected="protwords.txt"/> </analyzer> </fieldType>
2、再来看下fields节点内定义具体的字段（类似数据库的字段），含有以下属性：

name：字段名
type：之前定义过的各种FieldType
indexed：是否被索引
stored：是否被存储（如果不需要存储相应字段值，尽量设为false）
multiValued：是否有多个值（对可能存在多值的字段尽量设置为true，避免建索引时抛出错误）

代码

<fields>
    <field name="id" type="integer" indexed="true" stored="true" required="true" />
    <field name="name" type="text" indexed="true" stored="true" />
    <field name="summary" type="text" indexed="true" stored="true" />
    <field name="author" type="string" indexed="true" stored="true" />
    <field name="date" type="date" indexed="false" stored="true" />
    <field name="content" type="text" indexed="true" stored="false" />
    <field name="keywords" type="keyword_text" indexed="true" stored="false" multiValued="true" />
    <field name="all" type="text" indexed="true" stored="false" multiValued="true"/>
</fields>

3、建议建立一个拷贝字段，将所有的全文本字段复制到一个字段中，以便进行统一的检索：
以下是拷贝设置：
代码
view plaincopy to clipboardprint?
<copyField source="name" dest="all"/>
<copyField source="summary" dest="all"/>
view plaincopy to clipboardprint? <copyField source="name" dest="all"/> <copyField source="summary" dest="all"/>

4、动态字段，没有具体名称的字段，用dynamicField字段

如：name为*_i，定义它的type为int，那么在使用这个字段的时候，任务以_i结果的字段都被认为符合这个定义。如name_i, school_i

代码
view plaincopy to clipboardprint?
<dynamicField name="*_i" type="int"    indexed="true" stored="true"/>
<dynamicField name="*_s" type="string" indexed="true" stored="true"/>
<dynamicField name="*_l" type="long"   indexed="true" stored="true"/>
<dynamicField name="*_t" type="text"    indexed="true" stored="true"/>
<dynamicField name="*_b" type="boolean" indexed="true" stored="true"/>
<dynamicField name="*_f" type="float" indexed="true" stored="true"/>
<dynamicField name="*_d" type="double" indexed="true" stored="true"/>
<dynamicField name="*_dt" type="date"    indexed="true" stored="true"/>
view plaincopy to clipboardprint? <dynamicField name="*_i" type="int" indexed="true" stored="true"/> <dynamicField name="*_s" type="string" indexed="true" stored="true"/> <dynamicField name="*_l" type="long" indexed="true" stored="true"/> <dynamicField name="*_t" type="text" indexed="true" stored="true"/> <dynamicField name="*_b" type="boolean" indexed="true" stored="true"/> <dynamicField name="*_f" type="float" indexed="true" stored="true"/> <dynamicField name="*_d" type="double" indexed="true" stored="true"/> <dynamicField name="*_dt" type="date" indexed="true" stored="true"/>

schema.xml文档注释中的信息：

1、为了改进性能，可以采取以下几种措施：

将所有只用于搜索的，而不需要作为结果的field（特别是一些比较大的field）的stored设置为false
将不需要被用于搜索的，而只是作为结果返回的field的indexed设置为false
删除所有不必要的copyField声明
为了索引字段的最小化和搜索的效率，将所有的 text fields的index都设置成field，然后使用copyField将他们都复制到一个总的 text field上，然后对他进行搜索。
为了最大化搜索效率，使用java编写的客户端与solr交互（使用流通信）
在服务器端运行JVM（省去网络通信），使用尽可能高的Log输出等级，减少日志量。
2、<schema name="example" version="1.2">

name：标识这个schema的名字
version：现在版本是1.2
3、filedType

代码
<fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true" />
<fieldType name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true" />

name：标识而已。
class和其他属性决定了这个fieldType的实际行为。（class以solr开始的，都是在org.appache.solr.analysis包下）
可选的属性：

sortMissingLast和sortMissingFirst两个属性是用在可以内在使用String排序的类型上（包括：string,boolean,sint,slong,sfloat,sdouble,pdate）。
sortMissingLast="true"，没有该field的数据排在有该field的数据之后，而不管请求时的排序规则。
sortMissingFirst="true"，跟上面倒过来呗。
2个值默认是设置成false
StrField类型不被分析，而是被逐字地索引/存储。

StrField和TextField都有一个可选的属性“compressThreshold”，保证压缩到不小于一个大小（单位：char）

代码
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
solr.TextField 允许用户通过分析器来定制索引和查询，分析器包括一个分词器（tokenizer）和多个过滤器（filter）

positionIncrementGap：可选属性，定义在同一个文档中此类型数据的空白间隔，避免短语匹配错误。

代码
<tokenizer class="solr.WhitespaceTokenizerFactory" />
<tokenizer class="solr.WhitespaceTokenizerFactory" />

空格分词，精确匹配。

代码
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1" />
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1" />

在分词和匹配时，考虑 "-"连字符，字母数字的界限，非字母数字字符，这样 "wifi"或"wi fi"都能匹配"Wi-Fi"。

代码
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true"
expand="true" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />

同义词

代码
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"
enablePositionIncrements="true" />
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />

在禁用字（stopword）删除后，在短语间增加间隔

stopword：即在建立索引过程中（建立索引和搜索）被忽略的词，比如is this等常用词。在conf/stopwords.txt维护。

4、fields

代码
<field name="id" type="string" indexed="true" stored="true" required="true" />
<field name="id" type="string" indexed="true" stored="true" required="true" />

name：标识而已。
type：先前定义的类型。
indexed：是否被用来建立索引（关系到搜索和排序）
stored：是否储存
compressed：[false]，是否使用gzip压缩（只有TextField和StrField可以压缩）
mutiValued：是否包含多个值
omitNorms：是否忽略掉Norm，可以节省内存空间，只有全文本field和need an index-time boost的field需要norm。（具体没看懂，注释里有矛盾）
termVectors：[false]，当设置true，会存储 term vector。当使用MoreLikeThis，用来作为相似词的field应该存储起来。
termPositions：存储 term vector中的地址信息，会消耗存储开销。
termOffsets：存储 term vector 的偏移量，会消耗存储开销。
default：如果没有属性需要修改，就可以用这个标识下。
<field name="text" type="text" indexed="true" stored="false" multiValued="true" />

包罗万象（有点夸张）的field，包含所有可搜索的text fields，通过copyField实现。

代码
<copyField source="cat" dest="text" />

<copyField source="name" dest="text" />
<copyField source="manu" dest="text" />
<copyField source="features" dest="text" />
<copyField source="includes" dest="text" />
<copyField source="cat" dest="text" /> <copyField source="name" dest="text" /> <copyField source="manu" dest="text" /> <copyField source="features" dest="text" /> <copyField source="includes" dest="text" />
在添加索引时，将所有被拷贝field（如cat）中的数据拷贝到text field中

作用：

将多个field的数据放在一起同时搜索，提供速度
将一个field的数据拷贝到另一个，可以用2种不同的方式来建立索引。

代码
<dynamicField name="*_i" type="int" indexed="true" stored="true" />
<dynamicField name="*_i" type="int" indexed="true" stored="true" />

如果一个field的名字没有匹配到，那么就会用动态field试图匹配定义的各种模式。

"*"只能出现在模式的最前和最后
较长的模式会被先去做匹配
如果2个模式同时匹配上，最先定义的优先

代码
<dynamicField name="*" type="ignored" multiValued="true" />
<dynamicField name="*" type="ignored" multiValued="true" />

如果通过上面的匹配都没找到，可以定义这个，然后定义个type，当String处理。（一般不会发生）

但若不定义，找不到匹配会报错。

5、其他一些标签

代码
<uniqueKey>id</uniqueKey>
<uniqueKey>id</uniqueKey>

文档的唯一标识，必须填写这个field（除非该field被标记required="false"），否则solr建立索引报错。

代码
<defaultSearchField>text</defaultSearchField>
<defaultSearchField>text</defaultSearchField>

如果搜索参数中没有指定具体的field，那么这是默认的域。

代码
<solrQueryParser defaultOperator="OR" />
<solrQueryParser defaultOperator="OR" />

配置搜索参数短语间的逻辑，可以是"AND|OR"。

分享到：