我们已开发出Lucene的扩展包以使用特殊的变精度的字符串编码格式存储数字值(所有的诸如 double,long,float,和int的数字值会被转换为字典排序字符串的表示并以不同的精度存储,对于如何存储的细节,可以参看NumericUtils),一个range会被递归的分成多个小段以方便搜索: Range中间部分在Trie树中会以低精度搜索,边界则会以高精度搜索。这样可以急剧减少term的数量。
对于那些比较大的变长的值,我们提供了8种不同的精度(每个减少8位),最低精度的只有一个字节,这样最低精度的只有256个值。总的来说,一个range可以包含最大7*255*2 + 255 = 3825个不同term(当有个term对每个不同值-索引中的8字节数字range 几乎cover所有值;最大使用255个不同值,因为它将总是可能减少到全的256个值-使用低精度从而能用一个term表示)。实际中,我们能看到300个terms(使用500,000元数据记录索引和一个统一的值分布)
We have developed an extension to Apache Lucene that stores the numerical values in a special string-encoded format with variable precision (all numerical values like doubles, longs, floats, and ints are converted to lexicographic sortable string representations and stored with different precisions, for a more detailed description of how the values are stored, see NumericUtils). A range is then divided recursively into multiple intervals for searching: The center of the range is searched only with the lowest possible precision in the trie, while the boundaries are matched more exactly. This reduces the number of terms dramatically.
For the variant that stores long values in 8 different precisions (each reduced by 8 bits) that uses a lowest precision of 1 byte, the index contains only a maximum of 256 distinct values in the lowest precision. Overall, a range could consist of a theoretical maximum of 7*255*2 + 255 = 3825 distinct terms (when there is a term for every distinct value of an 8-byte-number in the index and the range covers almost all of them; a maximum of 255 distinct values is used because it would always be possible to reduce the full 256 values to one term with degraded precision). In practice, we have seen up to 300 terms in most cases (index with 500,000 metadata records and a uniform value distribution).
分享到:
相关推荐
"计算机专业外文翻译(lucene相关)" 本文翻译了论文"Scale-up x Scale-out: A Case Study using Nutch/Lucene",介绍了计算机专业领域中关于Lucene相关的知识点。 Scale-up vs Scale-out 论文中讨论了两个相对...
包含翻译后的API文档:lucene-core-7.7.0-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.lucene:lucene-core:7.7.0; 标签:apache、lucene、core、中文文档、jar包、java; 使用方法:解压翻译后的API...
lucene 2.4.0 javadoc api 是不能搜索的,不过资料都全,我还上了一个可以搜索的, 你在搜下
官方离线安装包,测试可用。使用rpm -ivh [rpm完整包名] 进行安装
官方离线安装包,测试可用。使用rpm -ivh [rpm完整包名] 进行安装
官方离线安装包,测试可用。使用rpm -ivh [rpm完整包名] 进行安装
lucene-core-3.6.1-javadoc
《Apache Lucene 3.0.2:全文搜索的核心与深度...通过深入研究源码和查阅 Javadoc 文档,开发者不仅可以掌握 Lucene 的基本用法,还能根据具体需求对其进行定制和优化,从而在各种应用场景中发挥出 Lucene 的强大潜力。
包含翻译后的API文档:lucene-core-7.2.1-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.lucene:lucene-core:7.2.1; 标签:apache、lucene、core、中文文档、jar包、java; 使用方法:解压翻译后的API...
包含翻译后的API文档:lucene-core-6.6.0-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.lucene:lucene-core:6.6.0; 标签:core、apache、lucene、jar包、java、中文文档; 使用方法:解压翻译后的API...
包含翻译后的API文档:lucene-suggest-7.7.0-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.lucene:lucene-suggest:7.7.0; 标签:apache、lucene、suggest、中文文档、jar包、java; 使用方法:解压...
包含翻译后的API文档:lucene-grouping-6.6.0-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.lucene:lucene-grouping:6.6.0; 标签:apache、lucene、grouping、jar包、java、中文文档; 使用方法:...
包含翻译后的API文档:lucene-join-7.2.1-javadoc-API文档-中文(简体)-英语-对照版.zip; Maven坐标:org.apache.lucene:lucene-join:7.2.1; 标签:apache、lucene、join、中英对照文档、jar包、java; 使用方法:...
包含翻译后的API文档:lucene-analyzers-smartcn-7.7.0-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.lucene:lucene-analyzers-smartcn:7.7.0; 标签:apache、lucene、analyzers、smartcn、中文文档...
包含翻译后的API文档:lucene-memory-6.6.0-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.lucene:lucene-memory:6.6.0; 标签:apache、memory、lucene、jar包、java、中文文档; 使用方法:解压翻译...
包含翻译后的API文档:lucene-highlighter-6.6.0-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.lucene:lucene-highlighter:6.6.0; 标签:apache、highlighter、lucene、jar包、java、中文文档; 使用...
包含翻译后的API文档:lucene-spatial-6.6.0-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.lucene:lucene-spatial:6.6.0; 标签:apache、lucene、spatial、jar包、java、中文文档; 使用方法:解压...
包含翻译后的API文档:lucene-misc-6.6.0-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.lucene:lucene-misc:6.6.0; 标签:apache、lucene、misc、jar包、java、中文文档; 使用方法:解压翻译后的API...
包含翻译后的API文档:lucene-suggest-6.6.0-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.lucene:lucene-suggest:6.6.0; 标签:apache、lucene、suggest、jar包、java、中文文档; 使用方法:解压...
包含翻译后的API文档:lucene-queryparser-7.3.1-javadoc-API文档-中文(简体)版.zip; Maven坐标:org.apache.lucene:lucene-queryparser:7.3.1; 标签:apache、lucene、queryparser、中文文档、jar包、java; 使用...