搜索引擎基础（Search Engine Basics）(一)

风雪涟漪

浏览: 513927 次
性别:
来自: 大连->北京

最近访客更多访客>>

zeraw

我菜鸟1号

孤狼18

freeman01

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 搜索引擎基础（Search...
浏览量：9328

: SEO策略
浏览量：18851

文章分类

社区版块

存档分类

博客分类：

搜索引擎正则表达式互联网 Web Google

当你想在网上找某些资料的时候，一般都用搜索引擎。输入一些词或短语，就能找到你需要的结果。当然，也不一定能找到令人满意的结果。

在互联网早期，不是你现在所用到的那样。没有可交互的站点，只是用FTP上传下载文件而已。

用户可以通过搜索方便找到需要的文件。如果认识上传文件的人，通过他给的地址，你就很快能找到这个文件。

在网上寻找一个文件简直就是个痛苦的过程，极大的考验一个人的耐心，有几个McGill大学的学生决定寻找一个简单的途径。终于在1990年，Alan Emtage开发了第一个搜索工具。他的发明，就是文件的索引，叫做Archie.

Archie貌似是40年代处一个连环画的角色，很遗憾没啥关系。之所以叫做Archie是因为Archives这个单词比较长。。。。。

Archie实际上并不是今天所用到的搜索引擎，但是在那个时候，许多上网的人都会用到它，它会把下载文件的目录并排序。并把列表存在网站的数据库中。

Archie的搜索并不像今天的搜索引擎一样支持自然语言。它索引计算机的文件，并很容易的去定位。

在1991年，另一个名叫Mark McCahill的学生，想到了既然能搜索文件，也能搜索到在文件中无格式的文本。可是并没有这样的工具，所以他就写个程序叫做Gopher，用来索引无格式文本，之后就出现了第一个Web站点。

之后Archie的成员加入了这个项目，Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) 和 Jughead (Jonzy’s Universal Gopher Hierarchy Excavation and Display) 用来寻找文件并存储在Gopher Index System.

这些程序的实质都是一样的，允许用户通过关键字来寻找文件的索引信息。

至此，搜索已经变得成熟起来。直到1993年，类似于现在的搜索引擎出现了，那就是由Matthew Gray开发的Wandex。Wandex是第一个在WEB上索引文件，它是搜索索引页面的程序。这就是WEB爬虫。是所有后来爬虫的基础。从1993-1998,主要的搜索引擎就被建立起来了，下面有个列表：

Excite — 1993
Yahoo! — 1994
Web Crawler — 1994
Lycos — 1994
Infoseek — 1995
AltaVista — 1995
Inktomi — 1996
Ask Jeeves — 1997
Google — 1997
MSN Search — 1998

今天，搜索引擎是个复杂的程序，能用词或短语搜寻文件，相关文档等等，难以置信的是搜索引擎仅仅有15年的历史。考虑看看能用它们来寻找到什么。。。

分享到：

搜索引擎基础（Search Engine Basics）(二 ... | 详解策略模式追MM,附:追MM有危险,请 ...

2008-04-28 11:37
浏览 2368
评论(4)
论坛回复 / 浏览 (3 / 4212)
查看更多

4 楼 glamey 2008-06-13

我现在就是做网页抓取，把网上很多的信息给抓取分析成一条一条的信息，最主要的还是用的是正则表达式。

3 楼风雪涟漪 2008-05-07

基本的方法就是：
1.正则表达式。
2.XPATH

你可以去看看网页爬虫的源代码，JAVA的开源很多了。www.open-open.com

2 楼 yefeng 2008-05-07

ＬＺ，有没有一些关于　网页分析的文章　能把网页里面的数据区分出来

1 楼 Virgo_S 2008-05-02

今天有学到了，搜索的历史，呵呵

发表评论

您还没有登录,请您登录后再发表评论