`

传统的几种搜索引擎技术

阅读更多

 

搜索引擎(Search Engine)是随着WEB信息的迅速增加,从1995年开始逐渐发展起来的技术。

 

据发表在《科学》杂志1999年7月的文章《WEB信息的可访问性》估计,全球目前的网页超过8亿,有效数据超过9TB,并且仍以每4个月翻一番的速度增长。例如,Google目前拥有10亿个网址,30亿个网页,3.9 亿张图像,Google支持66种语言接口,16种文件格式,面对如此海量的数据和如此异构的信息,用户要在里面寻找信息,必然会“大海捞针”无功而返。

 

搜索引擎正是为了解决这个“迷航”问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。

 

 

目前,搜索引擎技术按信息标引的方式 可以分为目录式搜索引擎机器人搜索引擎混合式搜索引擎 ;按查询方式 可分为浏览式搜索引擎关键词搜索引擎全文搜索引擎智能搜索引擎 ;按语种又分为单语种搜索引擎、多语种搜索引擎和跨语言搜索引擎等。

 

 

目录式搜索引擎

 

 

目录式搜索引擎(Directory Search Engine)是最早出现的基于www的搜索引擎,以雅虎为代表,我国的搜狐也属于目录式搜索引擎。

 

目录式搜索引擎由分类专家将网络信息按照主题分成若干个大类,每个大类再分为若干个小类,依次细分,形成了一个可浏览式等级主题索引式搜索引擎,一般的搜索引擎分类体系有五六层,有的甚至十几层。

 

目录式搜索引擎主要通过人工发现信息,依靠编目员的知识进行甄别和分类。由于目录式搜索引擎的信息分类和信息搜集有人的参与,因此其搜索的准确度是相当高的,但由于人工信息搜集速度较慢,不能及时地对网上信息进行实际监控,其查全率并不是很好,是一种网站级搜索引擎。

 

 

机器人搜索引擎

 

 

机器人搜索引擎通常有三大模块:信息采集、信息处理、信息查询。信息采集一般指爬行器或网络蜘蛛,是通过一个URL列表进行网页的自动分析与采集。起初的URL并不多,随着信息采集量的增加,也就是分析到网页有新的链接,就会把新的URL添加到URL列表,以便采集。

 

机器人搜索引擎使用多线程并发搜索技术,主要完成文档访问代理、路径选择引擎和访问控制引擎。基于机器人搜索引擎的Web页搜索模块主要由URL服务器、爬行器、存储器、URL解析器四大功能部件和资源库、锚库、链接库三大数据资源构成,另外还要借助标引器的一个辅助功能。

 

具体过程是,URL服务器发送要去抓取的URL,爬行器根据URL抓取WEB页并送给存储器,存储器压缩Web页并存入数据资源库,然后由标引器分析每个WEB页的所有链接并把相关的重要信息存储在锚库文件中。URL解析器读锚库文件并解析URL,然后依次转成docID。再把锚库中文本变成顺排索引,送入索引库。具体过程如图1所示。

 

 

 

 

元搜索引擎

 

 

元搜索引擎,也叫集搜索引擎,是指在统一的的用户查询界面与信息反馈的形式下,共享多个搜索引擎的资源库为用户提供信息服务的系统。元搜索引擎是对搜索引擎进行搜索的搜索引擎。

 

元搜索与一般搜索引擎的最大不同在于它可以没有自己的资源库和机器人,它充当一个中间代理的角色,接受用户的查询请求,将请求翻译成相应搜索引擎的查询语法。在向各个搜索引擎发送查询请求并获得反馈之后,首先进行综合相关度排序,然后将整理抽取之后的查询结果返回给用户。元搜索引擎查全率高、搜索范围更多更大,查准率也并不低。

 

元搜索引擎包括Web服务器、结果数据库、检索式处理、Web处理接口、结果生成等几个部分,其中用户通过Web服务器访问元搜索引擎,而元搜索引擎则通过Web处理接口访问其它外部的搜索引擎。其系统结构如图2所示。

 

用户通过WWW服务访问元搜索引擎,向Web服务器提交检索式。当Web服务器收到查询请求时,先访问结果数据库,查看近期是否有相同的检索,如果有则直接返回保存的结果,完成查询;如果没有相同的检索,就分析检索式并转化成与所要查找各搜索引擎相应的检索式格式,然后送至Web处理接口模块。

 

Web处理接口通过并行的方式同时查询多个搜索引擎,把所有的结果集中到一起。根据各搜索引擎的重要性,以及所得结果的相关度,对结果进行抽取并排序,生成最终结果返回给用户。同时,把结果存到自己的数据库里,以备下次查询参考使用。

 

 

 

跨语言搜索引擎

 

 

跨语言综合搜索引擎是在一般的搜索引擎基础上加了两个功能:不同语言提问之间的翻译和不同搜索引擎检索结果的集成。跨语言搜索引擎有两种情况,一种是架构在单一搜索引擎的基础上,另一种是架构在多搜索引擎的基础上。

 

目前研究最多的是跨语言文本检索和跨语言语音检索。跨语言检索主要涉及信息检索和机器翻译两个领域的知识,但又不是这两种技术的简单融合。跨语言检索系统的检索功能,可以利用现有的检索系统来实现,也可以重新构造新的检索系统或检索功能模块来实现。

 

跨语言搜索引擎的工作过程如下:用户向系统提交检索词,形成一个源语言的搜索式,系统对搜索式进行语言识别,识别出语种后,就对进行提问式的词法分析和结构分析,然后把这个分析过的搜索式翻译成各种语言的搜索式,最后把这一系列的搜索式提交给系统进行检索就可以了。

 

检索结果是含有多个语种的页面。如果使用多搜索引擎,转换成不同语言搜索式时还需要注意各种搜索引擎搜索式表达方法的不同。例如,新浪网搜索中文信息的结果比较好,那么就把提问词是中文的搜索式转换成新浪网的搜索式;雅虎对英文信息的搜索结果比较好,那么就向雅虎提交提问词是英文的搜索式。

 

关于多语种搜索有这样几种情况:检索词为不同语种,检索结果也不同,这种情况是不经过翻译的,对搜索引擎来讲是不区分的。比如在Google里输入“知识发现 knowledge”,选择所有语种,那么只要网页里既有“知识发现”又有“knowledge”就可以检索出来,不管该页面是中文的,还是英文或者是日文的,搜索引擎并不识别检索词的语种,这不是真正的跨语言搜索引擎。第二种情况是,检索词为同一语种,检索结果为不同语种。

分享到:
评论

相关推荐

    搜索引擎设计软件程序源码+数据库+WORD毕业设计论文文档.zip

    搜索引擎设计软件程序源码+数据库+WORD毕业设计论文文档. 经过对搜索引擎的研究同时与Lucene自身的特性相结合,搜索引擎的设计与实现需要实现的功能阐述如下: (1)支持桌面文件搜索,格式包括txt、doc、xls和ppt; ...

    大数据处理技术简介.pptx

    某搜索引擎搜索日志 大数据背景 —— 数据的来源 大数据处理技术简介全文共52页,当前为第11页。 二、大数据处理实现技术 大数据处理技术简介全文共52页,当前为第12页。 大数据处理技术面对的第一个问题 如何高效...

    大数据时代下数据分析技术研究.pdf

    如果是在互联网中产生的数据,则 应通过搜索引擎来对数据进行检索、处理和分析。由于我国的 科学技术在不断进步,大数据的分析引擎已经变得非常便捷和 准确,可以在海量的信息中获取最有价值和最有用的数据。对 于...

    大数据对传统金融的影响.doc

    包括微信、微博在内的社交网站以及搜索引擎、物联网 和电子商务等平台将人们之间的人脉关系、情绪、兴趣爱好、购物习惯等生活模式以及 经历一网打尽,并将其参加到巨大的个人信息库中。银行利用这些更加准确和丰富的...

    [详细完整版]网络营销精髓.doc

    以下将做详细介绍: 网络营销目前总体分为15大形式:即搜索引擎营销、即时通讯营销、网络病毒式营销 、BBS营销、网络博客营销、聊天群组营销、网络知识性营销、网络事件营销、网络口碑 营销、网络

    使用改进的学习排名方法改善生物医学信息检索

    在模型训练中,我们提出了两种新颖的文档标记策略,并结合了几种传统的检索模型作为学习特征。 此外,我们还研究了不同学习方法在我们的框架中对方法进行排名的有用性。 TREC基因组数据集上的实验结果证明了我们的...

    数据中台之结构化大数据存储设计.doc

    搜索引擎:提供复杂条件查询和全文检索。 4. 队列:用于将数据处理流程异步化,衔接上下游对数据进行实时交换。异构数据存储 之间进行上下游对接的核心组件,例如数据库系统与缓存系统或搜索系统间的数据 对接。也...

    移动营销策划方案设计.doc

    3.WAP组合模式 WAP组合模式主要包括三种模式,分别为推送模式与WAP的组合模式、二维码与WAP的 组合模式、手机搜索引擎与WAP的组合模式。推送模式与WAO的组合模式是采用短信或彩 信推送的形式加上无线网络的超级链接...

    移动营销策划方案设计(1).doc

    3.WAP组合模式 WAP组合模式主要包括三种模式,分别为推送模式与WAP的组合模式、二维码与WAP的 组合模式、手机搜索引擎与WAP的组合模式。推送模式与WAO的组合模式是采用短信或彩 信推送的形式加上无线网络的超级链接...

    XtoX企业智能建站系统 v2.0.rar

    通过XtoX万能建站建立的网站都是充分考虑了网络营销,建立的网站属于效益型网站,是以现代网络营销理念为核心,以搜索引擎良好表现(即符合搜索引擎优化排名、SEO、SEM)、用户良好体验为标准,能够更好地将访客转化...

    赢在大数据.docx

    百分点推出了一种名为个性化搜索引擎的工具,电子商务网站可以利用它来分析访客的点击行为,找出访客的偏好,进行产品推荐。同样,这个搜索引擎也是基于Hadoop开发。 近几年来,在互联网领域像Vpon威朋、百分点这样...

    解读大数据.pdf

    ¸ˇ˙« 文 / 曾轶雄 解读大数据 一、大数据的内涵 对 于 大 数 据 的 定 义, 国 内 外 有以下几种代表性观点。根据维基 百科的定义,大数据是难以用现有 的数据库管理工具处理的兼具海量 特征和复杂性特征的数据...

    X3BLOG AJAX国产大型开源多用户博客系统 1.1.0.beta1源码版

    国内搜索引擎最强大的多用户博客系统 国内唯一支持所有浏览器的多用户博客系统 国内唯一应用AJAX+XML+XSL三种技术于一体的博客系统 X3-BLOG 是基于XML+XSLT+AJAX技术构建的开源多用户博客门户系统,服务器端采用...

    X3BLOG AJAX国产大型开源多用户博客系统 1.1.0.beta1编译版

    国内搜索引擎最强大的多用户博客系统 国内唯一支持所有浏览器的多用户博客系统 国内唯一应用AJAX+XML+XSL三种技术于一体的博客系统 X3-BLOG 是基于XML+XSLT+AJAX技术构建的开源多用户博客门户系统,服务器端采用...

    大数据与化学教育.doc

    很多学生在化学学习过程中,已经开始利用相关搜索引擎查询化学数据、文 献以及相关信息。"大数据"在化学方面的影响鲜为人知,该文将讨论大数据对化学的影 响力是否可以深入到大学化学教育层面。 1 "大数据"的定义 ...

    人脸图像特征提取matlab代码-LR:左心室

    传统上,图像搜索可以依靠文本搜索技术,因为搜索引擎会根据多媒体数据在网络上围绕照片的周围元数据信息(例如标题和标签)为多媒体数据编制索引。 由于文本词可能与视觉内容不一致,因此这种索引的效率可能非常低...

    人脸图像特征提取matlab代码-Content-Based-Image-Retrieval:该存储库包含使用GUI进行的基于内容的图像检索的

    传统上,图像搜索可以依靠文本搜索技术,因为搜索引擎会根据多媒体数据在网络上围绕照片的周围元数据信息(例如标题和标签)为多媒体数据编制索引。 由于文本词可能与视觉内容不一致,因此这种索引的效率可能非常低...

    锐智企业建站系统 2011.02.08

    由于不少研究发现,搜索引擎的用户往往只会留意搜索结果最前面的几个条目,所以不少网站都希望通过各种形式来影响搜索引击的排序。当中尤以各种依靠广告维生的网站为甚。所谓"针对搜索引擎作最佳化的处理",是指为了...

    大数据平台项目方案.doc

    四、建设方案 为了保证项目的顺利进行和建设目标的可行性,我们采取如下几种建设方案。 1、数据采集方案。 我们统一信息资源标准规范,建立多维度数据库,拓宽数据来源,通过不同的 方式汇聚数据,增强分析力度,...

    大数据平台构思方案.doc

    四、建设方案 为了保证项目的顺利进行和建设目标的可行性,我们采取如下几种建设方案。 1、数据采集方案。 我们统一信息资源标准规范,建立多维度数据库,拓宽数据来源,通过不同的 方式汇聚数据,增强分析力度,...

Global site tag (gtag.js) - Google Analytics