`

什么是第三代搜索引擎

阅读更多

(www.marketingman.net 冯英健 2005-02-18)

第三代搜索引擎搜索引擎一词在2004年的媒体曝光率非常高,重要原因之一是国内服务商竞相推出“第三代搜索引擎”。

2004年8月3日,国内知名门户网站搜狐正式推出全新独立域名专业搜索网站“搜狗”(www.sogou.com),并声称该搜索引擎是全球首家第三代中文互动式搜索引擎服务提供商。

根据搜狐网站上的说明,“第一代搜索是主要依靠人工分拣的分类目录搜索,以搜狐和雅虎为标志;第二代搜索是依靠机器抓取,建立在超链分析基础上的网页搜索”,那么什么是第三代搜索引擎呢?

搜狐网站上的专题文章“第三代搜索引擎揭密”(IT.SOHU.COM  2004-08-03 12:45  转自: 搜狐IT )中是这么介绍第三代搜索引擎的:

“互联网提供了即时丰富的信息(以及人与人沟通参与/娱乐的平台),深层影响着现代人的生活。但随着网站数量和内容的急增,互联网就像是没有目录的巨大百科全书,让人们无法找寻自己想要的信息。搜索引擎的出现,为这本百科全书加上了目录和索引。不论我们想从互联网中寻找清华北大的网址、李小龙的图片,或者养猫的方法,只需要在搜索框中敲入关键词汇,就能够获得相关的信息或网址。

搜索引擎是对计算机科学与技术的极大发挥,将理论研究和工程开发完美结合,创造了非凡的用户体验和文化。以Google为代表的传统搜索引擎,在用户输入一个查询词时,返回和此查询词相关的网页摘要,并尽可能将用户需要的结果排在了前面。但搜索引擎毕竟不会“猜心术”,对于一个词,通常用户会有不同的需求,比如对于“绿茶”,人们要的可能分别是茶文化、健康知识、电影介绍、化妆品或者其他。(大多数)用户并不能够通过一两个词,精确表达自己所想要的内容,搜索引擎也无能为力只有返回大量的结果供用户选择。

搜狐首推的第三代搜索——互动式搜索,在用户输入一个查询词时,尝试理解用户可能的查询意图,给与多个主题的搜索提示,引导用户更快速准确定位自己所关注的内容。 (另一个好处:在用户搜索冲浪时,给与用户未曾意识到的主题提示)”

该文中同时介绍了第三代搜索引擎的产品特点:

互动式搜索:互动式搜索是在用户查询和搜索引擎返回结果的人机交互过程中,引擎根据用户的查询内容,智能展开多组相关的主题,帮助用户快速找到相关搜索结果

分类导航:针对部分查询结果项,扩展到类似或相关网站

查询精确相关:先进的分词引擎,并利用搜狐4000万用户名优化分词引擎的人名识别。在查询结果中,剔出了页面中仅在链接文字上包含

查询词的网页数据量,收录2亿中文网页,超过Google收录量。

更新速度:每天更新最重要的网站和新闻

(以上信息来自搜狐IT新闻 http://it.sohu.com/20040803/n221336473.shtml

 

不过,关于“搜狗”是全球第一个“第三代中文互动式搜索引擎” 的观点,一些研究文章并不如此认为,早在2003年11月份就有新闻报道称慧聪宣布发布第三代搜索引擎:

“最近,国内企业慧聪宣布发布第三代搜索引擎。据慧聪CTO陈沛介绍,相对于前两代,第三代中文搜索引擎更注重智能化和用户使用的个性化,其采用了中文自动分类、自动聚类等人工智能技术,而且使用了中文内容分析技术,以及区域智能识别技术,增强了搜索引擎的查询能力。”【详见“慧聪发布第三代搜索引擎 国内市场规模三年要达20亿” http://news.xinhuanet.com/newmedia/2003-11/10/content_1169677.htm】

因此,对于搜狗和慧聪(后来将搜索引擎独立出来改称“中搜”)谁是第一个第三代搜索引擎的问题,至今并没有定论。而据一些研究资料中的信息,如果从技术上来划分,从1998年开始就进入了第三代搜索引擎。下面有关搜索引擎发展历程的归纳资料选自2001年6月完成的学士毕业论文《第四代搜索引擎——主题搜索引擎的设计与实现》(北京大学计算机科学技术系计算机软件专业 作者:罗昶),其中也介绍了第三代搜索引擎的特点。

“搜索引擎技术伴随着WWW的发展是引人注目的。搜索引擎大约经历了三代的更新发展:第一代搜索引擎出现于1994年。这类搜索引擎一般都索引少于1,000,000个网页,极少重新搜集网页并去刷新索引。而且其检索速度非常慢,一般都要等待10秒甚至更长的时间。在实现技术上也基本沿用较为成熟的IR(Information Retrieval)、网络、数据库等技术,相当于利用一些已有技术实现的一个WWW上的应用。在1994年3月到4月,网络爬虫World Web Worm (WWWW)平均每天承受大约1500次查询。

大约在1996年出现的第二代搜索引擎系统大多采用分布式方案(多个微型计算机协同工作)来提高数据规模、响应速度和用户数量,它们一般都保持一个大约50,000,000网页的索引数据库,每天能够响应10,000,000次用户检索请求。1997年11月,当时最先进的几个搜索引擎号称能建立从2,000,000到100,000,000的网页索引。Altavista搜索引擎声称他们每天大概要承受20,000,000次查询。

自1998年到现在【网络营销教学网站注:应该指该论文写作的时间,即2001年】,出现了一个搜索引擎空前繁荣的时期,我们统称这一时期的搜索引擎为第三代搜索引擎。第三代搜索引擎的发展有如下几个特点:

1.索引数据库的规模继续增大,一般的商业搜索引擎都保持在几千万甚至上亿个网页。

2.除了一般意义上的搜索以外,开始出现主题搜索和地域搜索。很多小型的垂直门户站点开始使用该技术。

3.由于搜索返回数据量过大,检索结果相关度评价成为研究的焦点。相关的研究又可以分为两类:一类是对超文本链的分析,在这方面Stanford大学的Google系统和IBM的Clever系统作出了很大的贡献;另一类是用户信息的反馈,DirectHit系统采用的就是这种方法。

4.开始使用自动分类技术。Northern Light和Inktomi的Directory Engine都在一定程度上使用了该技术。

2000年搜索引擎2000年大会上,按照Google公司总裁Larry Page的演讲,Google正在用3,000台运行Linux系统的个人电脑在搜集Web上的网页,而且以每天30台的速度向这个微机集群里添加电脑,以保持与网络的发展相同步。每台微机运行多个爬虫程序搜集网页的峰值速度是每秒100个网页,平均速度是每秒48.5个网页,一天可以搜集超过4,000,000网页。

(以上相关资料来源 http://www.cs.ucla.edu/~lc/paper/4th%20generation%20search%20engine.doc)

尽管对于第三代搜索引擎年代的划分和主要特性至今没有统一的认识,不过至少可以肯定的是:第三代搜索引擎是对第二代搜索引擎在搜索技术上的改进,主要增加了互动性和个性化等高级的技术,为用户使用搜索引擎获取信息获得更好的体验。至于互动性的评价标准是什么,以及第三代搜索引擎到底比第二代搜索引擎增加了多少价值——尤其是为企业利用搜索引擎开展网络营销增加了哪些价值,目前并没有非常令人信服的研究结论。这也就是目前所谓的第三代搜索引擎并没有表现出太多优势的原因之一。

分享到:
评论

相关推荐

    第三代搜索引擎与天网

    第三代搜索引擎与天网 雷鸣王建勇赵江华单松巍陈葆珏 (北京大学计算机科学技术系) 摘要论述了三代搜索引擎的发展,着重介绍了第三代搜索引擎的体系结构,详细讨论了该搜索 引擎的几个核心技术———大规模搜集技术...

    第三代搜索引擎研究 (2009年)

    什么是第三代搜索引擎?这个问题目前还没有结论.分析了与这个问题相关的有代表性的观点和尝试,并提出了Search Engine Service(搜索引敬服务)的概念,认为它是第三代搜索引擎不可缺少的组成部分.

    中搜第三代搜索引擎——革命之举.pdf

    中搜第三代搜索引擎——革命之举.pdf

    互联网搜索引擎技术的发展

    目前,互联网的搜索引擎技术已经历了两个发展期:Yahoo由于网站索引技术为网站资源搜索提供了当时最好的支持,在上世纪八十年代...但它并没解决信息的实时跟 踪和个性化定制问题,又给第三代搜索技术的研法提出了课题。

    搜索引擎代码

    E桶金行业搜索引擎系统(包含多线程客户端蜘蛛系统) V1.6 版发布! E桶金行业搜索引擎 特别适用于超大、中型信息门户、行业门户、电子商务等网站使用。 它是一款真正意义上的搜索引擎:具有自己的蜘蛛、分词、索引...

    SEO智慧-搜索引擎优化与网站营销革命

    本书帮助读者建立搜索营销的概念,分析搜索营销广告和网站优化的相辅相成,并从认识搜索引擎的原理开始,导出搜索引擎优化的真正含义,向读者引入以搜索引擎优化为宗旨的“第三代网站建设”的新观念和设计理念,并...

    一个大规模、高性能的搜索引擎系统—北京大学硕士研究生学位论文

    在第三章,我们根据WWW的特点和搜索引擎的功能,根据图论、集合论及关系模型构建了“天网”搜索引擎的理论模型,并且以理论模型为出发点,设计了整个系统的体系结构。 在文章的主体部分,我们以搜索引擎中数据流程...

    通信与网络中的大唐移动3G TD-SCDMA控制器选用IDT网络搜索引擎

    大唐移动无线网络控制器将应用于第三代(3G)TD-SCDMA 网络解决方案,由中国最大的移动通信服务提供商中国移动进行部署,作为中国移动第三代(3G)TD-SCDMA 试验网络扩展计划的一部分。  IDT 网络搜索引擎及 IDT ...

    爬取知乎全网和伯乐在线,配置到elasticsearch做搜索引擎数据支撑

    项目说明 本项目是在之前的爬虫项目zhihu_spider和jobbole_spider的基础上进行重写的 重写的内容有: ...开发环境以及第三方库: python 3.6 scrapy 1.5 selenium chromedriver request elasticsearch-dsl 5.5.1

    网络猪 v4.0 Build 1017

    强力推出的一款桌面搜索引 擎类软件,是第三代的智能搜索引擎和个性化信息门户的结合,几乎包含所有网络服务功能,除了搜索引擎外,也可以用它来搜索硬盘、看新闻、订信息、看电影、听音乐、查天气、搜地图、在线...

    _搜索站群7代【火端内核二开】.rar

    ★搜索结果统一排序功能让你的搜索引擎与众不同 ★手机版独立域名,让移动搜索引擎收录更好 我们二次开发增加功能介绍: 一、增加自动推送模式 二、增加百度地图收录 三、修改模板增加js触发 四、优化代码增加...

    计算机导论试题.docx

    计算机导论试题 《计算机导论》 大规模集成电路是( )的特征 第一代计算机 第二代计算机 第三代计算机 第四代计算机 计算机指令的操作码是用来( ) 规定指令进行的操作种类 给出操作数地址 给出结果地址 给出下一...

    Startpage — Private Search Engine & New Tab-crx插件

    StartPage Extension提供以下优点: - 不保存,共享或出售您的个人或搜索引擎数据 - 提供Google搜索结果 - 不删除第三方跟踪器或饼干 - 确保未经预先进行的搜索结果,为世界上每个人提供相同的信息 - 允许用户使用...

    SEM培训资料.docx

    什么是SEM(搜索引擎营销)?搜索引擎营销就是基于搜索引擎平台的网络营销,利用人们对于搜索引擎的依赖和使用习惯,在人们搜索信息的时候,把所要营销的信息展现在用户面前。 进而言之,什么是SEM优化呢?SEM优化即...

    随机行走算法在无线传感器网络的应用

    P2P理念与搜索引擎技术相结合,是第三代搜索引 擎技术发展的一个热点。P2P搜索技术不需要中心服务 器的支持,不受信息文档结构的限制,使每个参与者在 搜索时可以共享文件、目录,与传统的搜索引擎相比具 有更好的...

    云计算的调研报告.doc

    云计算的调研报告 一、...依托个性化微件技术和第三代搜索引擎技术,中搜为广大 用户提供一站式个性化上网服务,同时为中小企业提供个性化网络营销服务,建立最大 的行业网站集群。中搜拥有三大核心产品:B2B行业网站、

    小鹿竞价点睛版 360竞价软件 v1.3.927.1620官方版

    功能介绍 1、第三代独创算法 性能全面提升 全新算法内核,性能优化内存占用更低,竞价精准度与速度提升50%以上 第三代算法内核 性能优化内存占用更低 竞价精准度和速度提升 2、超大词量排名 一键查看 同时...

    赞助搜索广告的动态模型-研究论文

    赞助商搜索广告方兴未艾-Jupiter Research报告的支出在2007年增长了28%... 第三,消费者搜索工具使平台收入增长了2.9%,消费者福利增长了3.8%。 但是,这些工具通过减少广告展示次数,使广告客户的利润降低了2.1%。

    小鹿竞价搜狗版 v1.3.1019.1536官方版

    为您提供小鹿竞价搜狗版下载,小鹿竞价搜狗版是一款专门面向搜狗搜索引擎的竞价推广软件,独创的优化算法,可以为用户带来最精准的关键词排名,数据传输严格加密,安全无忧,是百度,搜狗...软件特色 1、第三代独创算

Global site tag (gtag.js) - Google Analytics