个人学习<<An Introduction to Information Retrieval>>的笔记
先贴个目录出来。
本书的一章可以在75-90分钟内讲完。前8章是基础概念,构成搜索引擎的基本技术。
基础篇
第一章介绍反转索引,以及它如何用来处理boolean查询。
第二章基于前一章的内容,详细说明创建“反转索引”前对文档的预处理方法,以及如何扩展“反转索引”以便获得更多的功能和更快的处理速度。
第三章讨论字典的“搜索结构”,以及如何处理有拼写错误的查询和其他不同于被查询文档词汇的查询错误。
第四章描述一些创建“反转索引”的算法,并特别介绍高可扩展性以及分布式算法,以便处理“数量非常巨大”的文档集合。
第五章是讨论如何压缩字典和索引的技术。这些技术对大规模搜索引擎获得1秒以下的查询响应时间非常关键。
第一章到第五章讨论的索引和查询技术都是“Boolean retrieval"也就是说一个文档要么满足查询要么不满足。为了衡量文档匹配查询的程度(extent),
第六、七章发展出了Term Weighting和”得分score“计算技术,得到了一个想法:查询的结果是一列按照分值排列的文档(rank-ordered)。
第八章集中在如何评估一个信息检索系统。评估的基础是看检索出的文档的关联性(relevance),这样就可以用“评测用文档集合和查询”相对地评估不同信息检索系统的性能。
高级篇
第九章讨论增强检索(retrieval)的方法,比如 relevance feedback (关联反馈)和 query expansion(查询展开),目的都是为了增加取回相关文档的可能性。
第十章讨论如何从结构化的文档如xml,html中检索信息,我们把结构化文档检索规约到第六章得到的“vector space scoring"方法去处理。
第十一、十二章召唤概率理论来计算文档对查询的得分(score).
第十一章发展传统的概率论信息检索技术,他成为一个计算给定查询Terms时文档相关性概率值的框架。这个概率值可以作为得分(score)在ranking(排序)时使用。
第十二章演示了另外一种方法,该方法中为集合中的每一个文档建立一个“语言”模型,用这个模型可以估计产生某个查询的可能性。这个概率值也是一种可以用来rank-order(排序)文档的数。
第十三到十八章讨论几种信息检索中用到的机器学习技术和数值计算方法。
第十三章到十五章是处理文档分类(classifying)问题,就是给定一组训练用的文档和他们所属的类别,把其他文档划分到一组已知的类别中去。
第十三章引发出“统计分类法”,它是一个成功的搜索引擎所需要的关键技术之一。介绍了Naive Bayes分类方法,他是一个简单又有效的分类方法。并且勾画了用来评估不同分类器的标准方法论(methodology,就是一组相关概念、理论的集合)。
第十四章使用了第六章的向量空间模型,介绍了两种分类方法:Rocchio和kNN,他们都操作于文档的向量。同时提出了bias-variance(偏离差异)权衡,它是学习问题的一个重要特征,可以作为标准来选择合适的文本分类方法去解决问题。
第十五章介绍了支撑向量机,被很多研究者认为是最有效率(effective)的文本分类方法。同时发展出分类问题和好像无关的问题之间的联系,比如从一组训练用例中推导出评分方法的问题。
第十六到十八章讨论聚类问题,就是把一组关联的文档规约(inducing)为一些簇(cluster)。
第十六章先总览一些聚类方法在信息检索中的重要应用,然后介绍两个flat(平坦)聚类(clustering)方法:K-means和Expectation-Maximization算法。
第十七章引出很多信息检索应用对于“分层的结构化的集群”的需求。并介绍一些产生集群层级(hierarchy of clustering)的算法。也涉及了自动计算集群标签的困难问题。
第十八章从线性代数中发展出构造集群扩展的方法,并且提供了令人感兴趣的对信息检索中的代数方法应用的探索,代数方法已经在latent semantic indexing(隐藏语义索引)中有所尝试。
第十九到二十一章对付web搜索问题。
第十九章给出一个web搜索所面临挑战的总体介绍,然后给出一组web搜索中常用的技术。
第二十章描述了一个基本的网页爬虫的架构和需求。
第二十一章考虑了链接分析的强大作用,以及用于处理过程的几个线性代数和高级概率的理论。
分享到:
相关推荐
基于内容的图像检索技术的入门知识,对入门者很有效
据发表在《科学》杂志1999年7月的 文章《WEB信息的可访问性》估计,全 球目前的网页超过8亿,有效...难题(它可以为用户提供信息检索服务)。 目前,搜索引擎技术正成为计算机工业界 和学术界争相研究、开发的对象。
本书介绍了信息检索(ir)中的关键问题,以及这些问题如何影响搜索引擎的设计与实现,并且用数学模型强化了重要的概念。对于网络搜素引擎这一重要的话题,书中主要涵盖了在网络上广泛使用的搜索技术。 本书适用于...
本书介绍了信息检索(IR)中的关键问题,以及这些问题如何影响搜索引擎的设计与实现,并且用数学模型强化了重要的概念。对于网络搜素引擎这一重要的话题,书中主要涵盖了在网络上广泛使用的搜索技术。 本书适用于...
学习全文检索的最佳入门之原始代码(非 Lucene)。全文检索系统的实现技术分为三个方面:关系型全文检索系统、层次型全文检索系统、面向对象的全文检索系统及自动标引技术。 针对全文数据系统的构建,提出全文检索...
本课程适合所有需要学习自然语言处理技术的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:...
本课程适合所有需要学习自然语言处理技术的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节,如有需要可下载全部课程 全套资源下载地址:...
数据结构课设-基于C语言实现的航班信息的查询与检索系统源码+超详细注释+说明.zip数据结构课设-基于C语言实现的航班信息的查询与检索系统源码+超详细注释+说明.zip数据结构课设-基于C语言实现的航班信息的查询与检索...
【课程简介】 本课程适合所有需要学习自然...第08章2 问答式信息检索的理论与方法研究进展报告 共31页.ppt 相似的认知心理学模型:系统相似模型 共65页.ppt 一篇论文的诞生 共70页.ppt 自然语言处理大总结 脑图总结.pdf
1、全文检索的介绍 1.1、数据分类 结构化数据:格式固定、长度固定、数据类型固定,如:数据库数据。 非结构化数据:格式不固定、长度不固定、数据类型不固定,如:word文档、pdf文档、邮件、html、txt等。 1.2、...
015 - 入门 - HTTP - 全文检索 & 完全匹配 & 高亮查询.mp4 016 - 入门 - HTTP - 聚合查询.mp4 017 - 入门 - HTTP - 映射关系.mp4 018 - 入门 - JavaAPI - 环境准备.mp4 020 - 入门 - JavaAPI - 索引 - 查询 & 删除....
网络爬虫入门介绍PPT,具体介绍了爬虫功能
《XML入门经典(第4版)》能帮助您快速从XML的基础知识提升到更为高级的编程技术中,您将深入钻研XML和数据库的使用艺术,包括如何查询XML信息、检索XML数据和创建新的XML文档等等。此外,您还将学会如何在Web上发布...
搜索引擎-原理、技术与系统 信息检索相关知识入门推荐书籍,讲的很详细,且易于理解搜索引擎-原理、技术与系统 信息检索相关知识入门推荐书籍,讲的很详细,且易于理解
《XML入门经典(第4版)》能帮助您快速从XML的基础知识提升到更为高级的编程技术中,您将深入钻研XML和数据库的使用艺术,包括如何查询XML信息、检索XML数据和创建新的XML文档等等。此外,您还将学会如何在Web上发布...
《XML入门经典(第4版)》能帮助您快速从XML的基础知识提升到更为高级的编程技术中,您将深入钻研XML和数据库的使用艺术,包括如何查询XML信息、检索XML数据和创建新的XML文档等等。此外,您还将学会如何在Web上发布...
目前,市场上有少部分人脸识别的书籍,而专门讲解人脸检测和人脸检索技术的书籍则更少。近年来,笔者及其团队在从事人脸检测、人脸识别、人脸检索相关的研究时,查阅了很多国内外的参考资料,到目前为止,尚未见到一...
《XML入门经典(第4版)》能帮助您快速从XML的基础知识提升到更为高级的编程技术中,您将深入钻研XML和数据库的使用艺术,包括如何查询XML信息、检索XML数据和创建新的XML文档等等。此外,您还将学会如何在Web上发布...
本文介绍了自然语言处理的基本任务,以及信息检索要使用到哪些自然语言处理相关技术。同时,文中还列出了NLP、IR相关的国内外期刊和会议,还告诉初学者如何学习新技术,推荐阅读的书籍、课件,需要掌握哪些知识点,...
2.主要针对各个计算机相关专业,包括计算机科学、信息安全、数据科学与大数据技术、人工智能、通信、物联网等领域的在校学生、专业教师、企业员工。 3.项目具有丰富的拓展空间,不仅可作为入门进阶,也可直接作为...