`
zkl_1987
  • 浏览: 243463 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

收索引擎开发(1)

阅读更多
老早就想做个收索引擎了,苦于学业太重,没时间做,现在学校的课程也没了,开始完成我的收索引擎了,吼~~~
网上找了些资料,总算搞明白了什么是收索引擎,原来很复杂,很复杂,但我会坚持。。。

搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。元搜索引擎 (META Search Engine)在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。我是要做的是全文搜索引擎,继续。。。
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。看来还得找个“蜘蛛”(Spider)程序找资源,继续。。。

在网上找了很久,感觉Heritrix这个还蛮多人用的,决定用这个了。先得把它跑通吧,在SourceForge把它下载下来了,研究了下下,发现它可以在命令行下启动,也可以放在Eclipse里启动,那我当然选择在Eclipse里了,还能看源码,不错,照着网上的例子一步一步下来,终于成功,在JOB文件夹下看到了我要“爬”的网站资料。。。又用它试了几个网站,发现一个问题,同意的Heritrix配置,有时候能爬到数据,有时候就爬不到,难道有些网站还防“抓取”了,随便也“抓”了下javaeye,结果只“抓”到了个主页和几个图片,不懂了。。。有哪位大哥知道,请告诉一下小弟,谢谢!今天就到这,下次继续。。。
分享到:
评论

相关推荐

    易搜索站内全文检索搜索引擎

    为解决以上问题,边缘工作室经过长期的调研,不断摸索、反复实验,厚积薄发,并根据当前趋势开发出了“易搜索-智能全文检索站内搜索引擎”,简称为YSS,使以上问题迎刃而解。YSS主要有以下特点: 1、如你所需,他是...

    【金雀探讨】淘宝搜索引擎的排序逻辑?淘宝搜索优化势在必行(seo)力荐收藏[整理].pdf

    【金雀探讨】淘宝搜索引擎的排序逻辑?淘宝搜索优化势在必行(seo)力荐收藏[整理].pdf

    搜索引擎solr5.5

    solr 5.5包 官方纯净版 支持jdk1.7以上 强大的搜索引擎

    微信公众平台应用开发:方法、技巧与案例.(机械工业.柳峰)

    书名:《微信公众平台应用开发:方法、技巧与案例》(机械工业出版社.柳峰) PDF格式扫描版,全书分为9章,共245页。2014年1月出版。 内容简介 该书系统讲解了微信公众平台应用开发的流程、方法和技巧,并配有若干...

    精品搜索导航网站search纯JS源码

    简洁的浏览器主页,采用原生js编写,可选择不同的搜索引擎,展示网址收藏,查看天气,本地设置,无聊时玩玩小游戏以及小工具合集... 偏向练手,代码中可能会出现风格混乱、命名不规范、每次推送代码变动过多等问题 ...

    MySQL修改默认存储引擎的实现方法

    InnoDB被Oracle收购后,MySQL自行开发的新存储引擎Falcon将在MySQL6.0版本引进。 MyISAM引擎是一种非事务性的引擎,提供高速存储和检索,以及全文搜索能力,适合数据仓库等查询频繁的应用。MyISAM中,一个table实际...

    PHP开发实战1200例(第1卷).(清华出版.潘凯华.刘中华).part1

    第1章 开发环境 2 1.1 AppServ——PHP集成化安装包 3 实例001 通过AppServ配置PHP开发环境 3 实例002 AppServ应用技巧 6 实例003 第1个PHP程序 7 1.2 XAMPP——PHP集成化安装包 8 实例004 通过XAMPP配置PHP开发环境 ...

    PHP开发实战1200例(第1卷).(清华出版.潘凯华.刘中华).part2

    第1章 开发环境 2 1.1 AppServ——PHP集成化安装包 3 实例001 通过AppServ配置PHP开发环境 3 实例002 AppServ应用技巧 6 实例003 第1个PHP程序 7 1.2 XAMPP——PHP集成化安装包 8 实例004 通过XAMPP配置PHP开发环境 ...

    米粒搜(上网导航软件)V3.25中文官方安装版

    “米粒搜”是基于adobe air技术开发的绿色软件,是一款小清新风格的上网导航软件,独特有设计感的透明界面,除了喜爱的网址收藏和导航功能,软件还内置了八款不同的搜索引擎,包括迅雷影视搜索、电子书搜索、新浪...

    新版Android开发教程.rar

    • 集成的浏览器 基于开源的 WebKit 引擎 • 优化的图形库 包括定制的 2D 图形库, 3D 图形库基于 OpenGL ES 1.0 (硬件加速可选) • SQLite SQLite SQLite SQLite 用作结构化的数据存储 • 多媒体支持 包括常见的...

    java中ElasticSearch的ppt讲解分享44页

    2Elasticsearch 是基于 Apache Lucene 的开发的分布式的、开源的搜索分析引擎,支持各种数据类型,包括文本、数字、地理、结构化、非结构化。 Elasticsearch 因其简单的 REST API、分布式特性、高性能、可扩展而闻名...

    上网快手浏览器V1.12

    上网快手网页浏览器(v1.12版)是基于ie内核开发的多页面网页浏览器,可以同时打开多个网页,各网页相互独立,可以自由切换,并预设了上千个实用网址(书签),省却您频繁搜索,而且还可以自由添加、修改书签网址库...

    search搜索导航纯JS源码下载

    简洁的浏览器主页,采用原生js编写,可选择不同的搜索引擎,展示网址收藏,查看天气,本地设置,无聊时玩玩小游戏以及小工具合集... 偏向练手,代码中可能会出现风格混乱、命名不规范、每次推送代码变动过多等问题 ...

    米粒搜 v3.25.zip

    米粒搜是基于Adobe Air技术开发的绿色软件,是一款小清新风格的上网导航软件,独特有设计感的透明界面,除了喜爱的网址收藏和导航功能,软件还内置了八款不同的搜索引擎,包括迅雷影视搜索、电子书搜索、新浪微博等...

Global site tag (gtag.js) - Google Analytics