`

国内搜索引擎技术现状

阅读更多
当你登录某一个网站,在互联网上搜索各个网站的某一类内容,比如,输入“WTO”,希望得到最新、最全面的信息,你能等待多长时间?

几年前,人们希望十几秒,最多30秒钟就能得到结果,而现在的期望值是1~2秒,也就是说,伴随点击鼠标的“咔哒”一声,显示屏的页面已经变了,排在最前面的十几、二十条信息的标题已经出现在你的面前。

哪个网站的搜索速度明显地变快了,那它一定是使用了先进的搜索引擎技术。搜索引擎是仅次于门户的互联网第二大核心技术,要用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有综合性和挑战性。伴随互联网的普及和网上信息的爆炸式增长,它越来越引起人们的重视。

成功的百度
要谈国内搜索引擎技术应用现状则不能不谈百度。美国的网络门户多是以搜索引擎起家的,国内搜索引擎的发展却一直不尽如人意,这种情况直到2000年下半年才结束:年轻的百度公司迅速地拿下了硅谷动力、Chinaren、搜狐、新浪、21CN、广州视窗、263、TOM等门户网站的全文搜索引擎服务,成为中文检索市场中的佼佼者。

百度的成功对中文搜索的贡献很大,不但提供给门户网站以质优价平的搜索引擎,使中国网民有更好的搜索体验,也因为百度的成功,激励了同行的进取心,使得国内中文搜索引擎的发展进入你争我赶的良性发展时代。最近一年来,中文搜索引擎的进步成了互联网行业的一个亮点。

老将出奇兵
在传统的网站分类目录搜索方面,新浪、网易、搜狐各出奇兵。新浪依托自身良好的技术实力和新闻优势,推出了综合搜索,省却了用户分门别类搜索的麻烦,只要输入一次想搜索的关键词,就能得到网站、网页、新闻、商品等常用信息,层次分明,一目了然,在保持快速、准确的基础上,给用户提供了更多的选择。

网易则利用它良好的网虫资源,网聚人的力量,做起了开放式目录。互联网上各行各业的高手纷纷加盟,使得网易的网站分类目录一天比一天好。网易还进一步挖掘搜索引擎的潜力,推出了把搜索结果通过手机短信发送的功能。而搜狐,则主要把大量的人力物力花在网站分类目录的整理上,成为分类合理的网站分类目录。

易易寻公司主要致力于发展多媒体搜索引擎,它推出了被业内人士推崇的中文图像搜索引擎,使互联网上的多媒体信息开始能被网友方便地利用。

由北大计算机系网络研究室开发的天网搜索引擎,收录了大量教育网内资源,使教育网内的资源也能被广泛利用起来,特别是它的FTP搜索部分,提供了非常丰富的下载资源。并且,经过今年春季的升级,检索速度有了明显提升。

Openfind(网擎)以“搜寻有价”的新观念,推出“CIA 网路情报员”实时信息付费订阅服务。用户可以付费订阅指定关键字的最新信息,这是开发搜索引擎的价值的另一种尝试。Openfind曾是一个优秀的中文全文搜索引擎,当它的搜索引擎客户被后起之秀一个个抢走时,曾有传言说它准备退出门户式搜索引擎的竞争,但事实证明,它仍在努力升级,如今某些方面已经跟领先的百度差别不大。

应用发展方向
百度搜索引擎这半年来除了一直是最大的中文搜索引擎,在搜索的相关性上也不断升级。它把门户网站用的搜索引擎技术应用于中小网站和企业的需要,开发了百度网事通Web和网事通Real搜索。特别值得一提的是网事通Real,其实是一个实时新闻搜索引擎,可以同时监控和检索几千个网站在一分钟前发布的新闻,也能被当做信息监控工具使用。据说某些企业购买来监控各大论坛里的信息,既能收集竞争情报,又能在出现不利企业的信息时及时处理。

目前国内搜索引擎对潜在价值的开发明显不够,在应用上,下一步的发展方向是:

1.网站内和企业局域网内搜索引擎的普及化
搜索引擎作为基础软件已经在国外得到广泛的认同,不仅大型门户网站如美国在线、雅虎、亚马逊等等每一个著名网站的首页都在显著位置放置了搜索框,就连迪斯尼、麦当劳、美孚石油这些传统企业也都无一例外地在它们的首页上放置了搜索框或搜索功能的链接。美国500强中使用搜索引擎的网站几乎达到100%。国内企业往这个方向发展是自然而然的事。

2.实时新闻检索(包括新闻订阅、监控、定向情报收集等)的广泛应用
Openfind推出“CIA网路情报员”,百度推出“网事通real”,慧聪推出“网神”都证明它们已经觉察到了这个发展方向。这其实也是互联网搜索引擎从提供无序低价值信息往提供高质高价值信息方向的转变。

3.搜索引擎统计数据的应用
搜索引擎拥有庞大的流量和特征明显的信息,CNNIC早已认识到了搜索引擎的价值,所以在最近一期的互联网状况调查中利用了百度搜索引擎的统计结果。而著名的yahoo干脆开始出售它的搜索引擎统计数据,这都是搜索引擎统计信息的价值反映。

4.搜索引擎收费登录服务
国内搜索引擎应用有很长一段时间都是搜索引擎独自在唱戏,只能亏本,而网站和网民只有看戏的份,这不是一个良性循环,不利于搜索引擎行业的发展。而近期,情况开始改观,搜狐、新浪焦点的商业网站收费收录服务、网易和263的搜索关键词定向广告、百度的搜索引擎竞价排名服务,有可能促使搜索引擎、网站、网民三者的需求取得和谐。
在技术上,国内搜索引擎在短期内还不会在以下方面有真正的进步,仅停留在美好愿望:自然语言检索、语音检索、视频搜索、用户个性化搜索引擎、交叉语言搜索引擎、具实用性的模糊检索。

但在以下这些问题,却可能在短期内取得明显的进展:网页数量、网页缓存、动态摘要、重复网页、数据库更新期、动态网页抓取、自动分类、定制搜索服务、BBS搜索、Frame网页、不可索引文件的链接索引、切词、死链接、网页搜索和分类目录的结合、错误关键字的提示、pdf/XML等特殊格式文件索引。
分享到:
评论

相关推荐

    搜索引擎技术及趋势——文献阅读综述

    本文简述了搜索引擎的起源和发展,介绍了国内外的研究现状,对其分类、性能评测、关键技术等方面做了一定的讨论,在此基础上对其发展趋势作了大胆的预测。

    基于Python与spimi的新闻搜索引擎设计与实现

    2 搜索引擎相关技术介绍 2.1 Python爬虫技术 2.1.1 python 2.1.2 爬虫概述 2.2 结巴分词 2.3 SPIMI构建索引算法 2.4 计算两两新闻之间余弦相似度 2.5 BM25公式进行打分排序 2.5.1 检索概率模型BM25公式 ...

    基于ASP的搜索引擎的开发

    随着因特网的迅猛发展、WEB信息的增加,用户要在信息海洋里查找信息,就像大海捞针一样,搜索引擎技术恰好解决了这一难题。目前,搜索引擎系统可以分类三大类,分别是:目录式搜索引擎:以人工方式或半自动方式搜集...

    一个小型搜索引擎的设计与实现

    随着因特网的迅猛发展、Web信息的增加,用户要在信息海洋里查找信息,就像大海捞针一样, 搜索引擎技术恰好解决了这一难题。目前,搜索引擎系统可以分类三大类,分别是:目录式搜索引擎:以人工方式或半自动方式搜集...

    《信息安全领域中语义搜索引擎的设计与实现》本科毕业论文一万字.doc

    1.3 国内外研究现状 1.4 本论文的结构安排 第二章 相关技术综述 2.1 信息检索技术 2.2 自然语言处理技术 2.3 语义表示与推理技术 2.4 信息安全技术 第三章 语义搜索引擎设计 3.1 架构设计 3.2 数据预处理 3.3 查询...

    [计算机毕设]基于asp的搜索引擎开发系统设计与实现(源代码+项目报告).zip

    本文通过分析国内外搜索引擎的发展现状,提出了一种利用ASP技术实现一个B/S体系结构的搜索引擎系统的方案,以期达到功能强大,操作简单,通用性强,可以满足用户对信息搜索需要的搜索引擎系统。文中着重论述了该系统...

    搜索引擎设计软件程序源码+数据库+WORD毕业设计论文文档.zip

    1.2 国内外发展现状及分类 2 1.3 本论文组织结构介绍 3 2 相关技术介绍 5 2.1什么是搜索引擎 5 2.2 sqlserver数据库 6 2.3 Tomcat服务器 7 3 搜索引擎的基本原理 8 3.1搜索引擎的基本组成及其功能 8 3.2搜索引擎的...

    大数据使用及现状调研报告.pdf

    6、传统的互联⽹⼊⼝转向搜索引擎之后,⽤户的搜索⾏为和提问⾏为聚集了海量数据。单位存储价格的下降也为存储这些数据提供了经济 上的可能。我们所指的⼤数据不同与过去传统的数据,其产⽣⽅式、存储载体、访问⽅...

    大数据的国内外研究现状与发展动态分析报告.doc

    而与此同时,数据的形式也极其丰富,既有社交网络 、多媒体等应用所主动产生的数据,也有搜索引擎、网页浏览等被动行为过程中被记录 、搜集的数据。时至今日,随着移动互联网、物联网、云计算应用的进一步丰富,数据...

    网络新闻检索系统毕业设计文档

    4.2 搜索引擎的工作原理分析 9 4.3 数据库概念设计 10 4.4 数据库逻辑结构设计 10 5详细设计 12 5.1 系统的主要功能 12 5.2 系统设计流程图 12 5.3 网站新闻检索系统的体系结构分析 14 5.3.1 HTTP协议分析 14 5.3.2 ...

    网站新闻检索系统

    4.2 搜索引擎的工作原理分析 9 4.3 数据库概念设计 10 4.4 数据库逻辑结构设计 10 5详细设计 12 5.1 系统的主要功能 12 5.2 系统设计流程图 12 5.3 网站新闻检索系统的体系结构分析 14 5.3.1 HTTP协议分析 14 5.3.2 ...

    网络新闻检索系统毕业设计webnews源码.zip

    4.2 搜索引擎的工作原理分析 9 4.3 数据库概念设计 10 4.4 数据库逻辑结构设计 10 5详细设计 12 5.1 系统的主要功能 12 5.2 系统设计流程图 12 5.3 网站新闻检索系统的体系结构分析 14 5.3.1 HTTP协议分析 14 5.3.2 ...

    计算机网络技术基础

    详细的讲述了网络信息的传递和接收原理 目录 第 1 章 计算机网络的概述...........................................................................国内外现状 .................................................

    大数据在旅游业中的应用分析报告.doc

     除 Hopper外,社交旅游网站Tripl、酒店整合搜索引擎De-alAngel、酒店声誉管理公司Ol- ery、基于互动式地图的一站式旅游解决方案Georama、有关餐厅质量检验的数据收集平 台HD- Scores、行程记录和体验分享平台...

    工程硕士学位论文 基于Android+HTML5的移动Web项目高效开发探究

    1.2国内外相关研究现状 2 1.2.1 在线认证检测平台开发现状 2 1.2.2 HTML5 3 1.2.3 Android 3 1.2.4 Android移动Web项目开发的三种解决方案:Native, Web和Hybrid优缺陷分析 4 1.2.5国内外应用现状 6 1.2.6 研究现状...

    计算机文献检索与应用 本文链接:https://blog.csdn.net/Candy5204/article/details/

    计算机文献检索与应用 ...专利文献是实行专利保护制度的国家及国际性专利组织在审批专利过程中产生的官方文件及其出版物的总称。 从广义上讲,包括申请说明书、专利...现有毕业论文的题目定为“国内外网络教育的发展现状

    cms v1.0正式版MSSQL源码2012711

    内置SEO选择,对于追求搜索引擎优引的用户提供更为自主的选择,轻松调用SEO信息。 提示: 1、附加DataBase下的DTcmsdb.mdf(MSSQL2005)数据库文件 或者您也可以建立数据库,在其基础上运行database.sql生成表及...

    步步高手机小组调研报告.doc

    通过百度、SOSO等搜索引擎寻找相关数据资料 3.与促销人员交流,小组讨论 三、调查内容 产品结构调查 定位:专业音乐手机,倾力打造完美音质的效果。即避免同国际品牌的直接竞争,又能 避免iPhone 为代表的智能机竞争...

    DTcms v1.0正式版源码

    内置SEO选择,对于追求搜索引擎优引的用户提供更为自主的选择,轻松调用SEO信息。 更新日志: 1、2012-7-11 19:50 修复了运行插件出错的批漏 2、2012-7-12 12:36 修复了添加频道出错BUG,修改了DTcms.DAL.sys_...

    DTcms v1.0.3正式版ACCESS源码2012825

    内置SEO选择,对于追求搜索引擎优引的用户提供更为自主的选择,轻松调用SEO信息。 更新日志: 1、2012-7-19 19:50 修复了运行插件出错的批漏; 2、2012-7-14 0:02 修复用户评论无法回复的BUG; 3、2012-7-15 10:44 ...

Global site tag (gtag.js) - Google Analytics