倒排索引技术主要应用与全文检索,通过对非主关键字的分析,建立内容与PK之间的关键。通过索引文件
存储后提供给应用高效的检索。
如果需要自己定制倒排索引器,算法应该实现如下的步骤:
1.信息分析,对输入的数据项或者记录(P,K)中的K做一个过滤的词法和语法分析。
主要对数据中非主关键字内容K进行分词,过滤,分析等获得一个内容关键字(k1,k2,k3....)集合
2.建立倒排关系,倒排所有和一般索引区别主要利用内容中的关键字建立和主关键字P的关系
这样把数据向(P,K)分割成一个倒排关系集合(k1,p),(k2,p),(k3,p)....
3.建立倒排索引,有了上面的一系列的关系后,你可好把k1,k2看成主关键字,建立多k到pn的索引集合,形成(k1,(p1,p2,p3,....)),(k2,(p1,p2,p3,....))。
4.索引存储,把所有关键字k的索引集合用一种统一的数据结构存储.
5.优化机制.一般内存K形成的关键较大,这样形成索引集合比较大,一般需要加入一下优化处理的机制.例如压缩技术.这可以参考Lucence的实现(把关键词压缩为<前缀长度,后缀)
6.[可选]应用接口.你实现了上述的算法,还必须提供一套接口(API)给应用程序使用.
分享到:
相关推荐
采用MFC可视化,通过建立倒排索引表,简单实现了搜索功能
使用倒排索引实现的简单的搜索引擎demo 能对莎士比亚全集的文本进行搜索,并显示该词语所在的篇目和所在句子 源代码及说明也可在github获取 https://github.com/yunwei37/myClassNotes
对所给的Tweets数据集建立倒排索引; 实现Boolean Retrieval Model,使用TREC 2014 test topics进行测试; Boolean Retrieval Model中支持and, or ,not,查询优化可选做;
基于hadoop集群系统(也可以在伪分布式系统上运行)系统使用Java编写的倒排索引实现,具有使用停词表功能,使用正则表达式选择规范的单词。代码重构了setup(),map(),combiner(),partitation()和reducer()函数,...
本系统源码是个人原创文章系列,程序员编程艺术第二十六章:基于给定的文档生成倒排索引的编码与实践的整个工程源码 look:http://blog.csdn.net/v_july_v/article/details/7109500 windows下VS2010,linux环境下皆...
倒排索引的java实现,对于已经转化为txt的网页文档使用IK分词,然后建索引
文本全文搜索引擎 利用倒排索引实现
MapReduce程序 完整实验报告 和 jar包 和简单实验数据
c++倒排索引算法
程序用java编写后向算法中文分词分词,并建立倒排索引表。然后在myeclipse下编写一个web形式的搜索测试页。
这是山东大学大数据实验二,用Hadoop实现文档的倒排索引
Map和 Reduce的设计思路(含 Map、Reduce阶段的 K、V类型) 基本要求与排序 因为两者代码具有关联性,故放在一起说。 首先在基本要求中,Map 我们对于输入的文件每句进行切割,将单词与文件名作为(text)key,...
北京大学网络大数据管理与应用作业,倒排索引实现。使用Spark和Hadoop分别进行实现倒排索引
MapReduce操作实例-倒排索引.pdf 学习资料 复习资料 教学资源
大数据实验报告Hadoop编程实现InvertedIndex文档倒排索引程序附源码.doc
读入文本集,建立倒排索引,内含有的TXT文本可以替换,源代码可以直接运行
文档倒排索引的MapReduce程序设计与实现
搜索引擎中的倒排索引技术是一个核心的关键技术,如何实现高效的倒排索引一直是各大搜索引擎巨头的核心竞争点。本文是其中的一部分。
基于Go实现简单的倒排索引源码+数据+sql数据库.zip基于Go实现简单的倒排索引源码+数据+sql数据库.zip基于Go实现简单的倒排索引源码+数据+sql数据库.zip基于Go实现简单的倒排索引源码+数据+sql数据库.zip基于Go实现...
倒排索引(Inverted Index)被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射,是目前几乎所有支持...资源中包含了MapReduce实现的文档倒排索引的源码、jar包、测试数据(包含停词表)和结果。