--lvpei.cnblogs.com
搜索引擎普遍采用全文检索技术,而其处理的大规模文档本身都是非结构或半结构化信息,文档索引技术是信息全文检索和快速查询的基础。
一、索引概述
索引是一种数据存储的组织结构。索引器用来完成信息索引的建立,维护和管理索引的功能。
倒排索引是一种高效率的索引组织方式,采用字或词作为索引项,能够很好的支持多种检索模型,提供高性能的检索。搜索引擎的索引使用了传统信息检索中的索引模型。索引结构通常组织成按照索引项排列的链表形式,在检索时,使用检索词和索引项进行匹配,直接定位在检索结果所在的列表。
二、索引器上下环境
索引器从原始文档中抽取索引项,用于表示文档,并生成文档集合的索引表。索引器运行环境涉及到的主要内容是文本预处理和检索数据库。主要包括原始文本库(网页或者文档),文本解析器(分析网页和文档内容,统一为无格式文档或者中间格式文档),文本中间格式库(去除噪音垃圾信息,完成分词之后的纯文本或者统一的中间格式),索引器(对解析器处理的结果信息进行处理,利用预设的索引项字典建立按索引项排列的链表,并动态更改索引字典),索引字典(词和编码的二元组结构数据库),文本索引库(以索引形式组织存放的数据文件)。
三、倒排索引原理
索引技术的核心机制是倒排索引结构。大规模数据一般都是文件形式存储,倒排索引是利用索引关键字直接确定文档列表,最后确定希望找到的文档本身。
四、索引分类
索引的分类一般从两个角度考虑,索引处理的索引项的类型(字索引、词索引、短语索引、混合索引)和索引建立更新的形式(静态和动态)。
五、高性能索引的关注方向
1-如何提高索引建立的速度。
2-如何减少索引的资源占用。
3-索引使用当中如何合理分配有限的内存资源。
4-如何提高资源的访问速度。
分享到:
相关推荐
<mi> N </ mi> <mo> = </ mo> <mn> 1 </ mn> </ math> $$ \ mathcal {N} = 1 $$超保形的超保形索引 四个维度上的场论具有渐近增长的状态,其电荷呈指数增长。 我们的分析采用了类似于Cardy的大电荷限制,对于...
其中有些是技术上类似<div>和<span>标签,但有一定含义,例如<nav>(网站导航块)和<footer>。这种标签将有利于搜索引擎的索引整理、小屏幕装置和视障人士使用。同时为其他浏览要素提供了新的功能,通过一个标准接口...
第15章 索引和查询优化 312<br>15.1 索引概述 312<br>15.1.1 聚集索引和非聚集索引 312<br>15.1.2 填充因子 312<br>15.1.3 使用目录视图查看索引 313<br>15.2 用CREATE INDEX语句创建索引 313<br>15.2.1 基本语法 ...
Java搜索引擎的研究与实现(含文档+源码)<br>目录 1<br>摘要 3<br>第一章 引言 4<br>第二章 搜索引擎的结构 5<br>2.1系统概述 5<br>2.2搜索引擎的构成 5<br>2.2.1网络机器人 5<br>2.2.2索引与搜索 5<br>2.2.3 Web...
自己制作的pdf,目录包括如下:<br><br>记录数据的基本格式 3<br>聚集索引,非聚集索引 8<br>测试中常看指标和清除缓存方法 15<br>主键与聚集索引 18<br>理解newid()和newsequentialid() 20<br>索引的代价,使用场景 ...
8 <br> 概述 8 <br> 切分原理 10 <br> 经验总结 13 <br> 四、索引器 14 <br> 概述 14 <br> 实现原理 14 <br> 经验总结 16 <br> 五、查询器 16 <br> 概述 16 <br> 实现原理 17 <br> 经验总结 19 <br> 六、系统关键...
50<br>4.4.2 创建惟一索引 51<br>4.4.3 查看表的索引 52<br>4.4.4 删除索引 53<br>4.5 维护数据表 53<br>4.5.1 在表中插入新列 53<br>4.5.2 改变表中列的排列顺序 54<br>4.5.3 自动编号列和标识符列 54<br>4.5.4 可...
<IMG>标签 <br><br>11.4.3 图像类型 <br><br>11.4.4 与图像相关的问题 <br><br>11.4.5 分割图像 <br><br>11.4.6 Web中基于矢量的艺术: Flash <br><br>11.5 背景图像 <br><br>11.6 小结 <br><br>第12章 利用GUI特性...
<IMG>标签 <br><br>11.4.3 图像类型 <br><br>11.4.4 与图像相关的问题 <br><br>11.4.5 分割图像 <br><br>11.4.6 Web中基于矢量的艺术: Flash <br><br>11.5 背景图像 <br><br>11.6 小结 <br><br>第12章 利用GUI特性...
<br>全文搜索<br> 1 使您的Jive搜索支持中文 <br> 2 关于Jive2中的中文搜索 <br> 3 基于JAVA的全文索引引擎Lucene简介 <br><br> <br> <br>安全认证<br> 1 Jive2.1.1 License保护原理分析 <br> 2 用Java的加密机制来...
目录 <br>·此参考中包含的内容 <br>·轻松上手 <br>·简介 <br>·操作符 <br>·语句 <br>·核心 <br>·文档 <br>·窗口 <br>·表单 <br>·浏览器 <br>·事件和事件句柄 <br>·LiveWire数据库服务 <br>·进程管理...
数组<br>第7章 类<br>第8章 结构<br>第9章 接口<br>第10章 枚举<br>第11章 字段<br>第12章 方法<br>第13章 属性<br>第14章 索引器<br>第15章 委托<br>第16章 事件<br>第17章 不安全代码<br>第18章 属性标志<br>第19...
系统设计<br> 1 jive设计思路 <br> 2 jive的工作内幕 <br> 3 Jive源代码研究 <br> 4 Jive中的设计模式 <br> 5 jive学习笔记 <br><br><br><br><br>数据库设计<br> 1 Jive Forums数据库说明(英文) <br> 2 Jive KB...
性能 130<br><br>7.1 瓶颈 130<br><br>7.2 计时和轮廓 135<br><br>7.3 加速策略 138<br><br>7.4 代码调整 140<br><br>7.5 空间效率 144<br><br>7.6 估计 145<br><br>7.7 小结 147<br><br>第8章 可移植性 149<br><br>...
<br>背景附件 <br>背景位置 <br>背景 <br><br><br>文本属性<br><br>文字间隔 <br>字母间隔 <br>文字修饰 <br>纵向排列 <br>文本转换 <br>文本排列 <br>文本缩进 <br><br>行高<br><br>方框属性<br><br>上边界 <br>...
<br><br>索引<br><br>1._引子<br>2._正则表达式的历史<br>3._正则表达式定义<br><br>3.1_普通字符<br>3.2_非打印字符<br>3.3_特殊字符<br>3.4_限定符<br>3.5_定位符<br>3.6_选择<br>3.7_后向引用<br><br>4._各种操作...
数据库优化 177<br>8.1 索引的使用 178<br>8.1.1索引对单个表查询的影响 178<br>8.1.2索引对多个表查询的影响 180<br>8.1.3多列索引对查询的影响 181<br>8.1.4索引的作用 182<br>8.1.5 索引的弊端 182<br>8.1.6 选择...
数据库优化 177<br>8.1 索引的使用 178<br>8.1.1索引对单个表查询的影响 178<br>8.1.2索引对多个表查询的影响 180<br>8.1.3多列索引对查询的影响 181<br>8.1.4索引的作用 182<br>8.1.5 索引的弊端 182<br>8.1.6 选择...
<br>14.1.3 对数据库数据执行布尔查询 <br>14.1.4 上传二进制文档并且进行索引 <br>14.2 使用Microsoft Indexing Service <br>14.2.1 配置Microsoft Indexing Service <br>14.2.2 将SQL Server配置为使用Microsoft ...