`
ibc789
  • 浏览: 4800 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论
文章列表
        Nutch-0.9中,org.apache.nutch.crawl.Crawl类中提供了一个入口主函数main,通过接收键入的命令行,根据命令行指定的参数对Nutch进行配置,从而启动Nutch抓取程序,通过阅读org.apache.nutch.crawl.Crawl类的源代码来了解Nutch是如何根据接收的命令行进行配置及其启动的。 org.apache.nutch.crawl.Crawl类的主函数如下所示:      // 应该知道,Nutch查找文件系统是基于Linux系统的机制的,所以提供启动的命令与Linux的Shell命令很相 ...
Nutch的大致工作流程可以通过上一篇文章有了一定的了解了。在上一篇文章中,主要是针对一幅Nutch工作流程图片来了解Nutch的工作流程,十分感性,并没有涉及到任何关于Nutch的包和类。这里通过在网上下载的一个《Nutch入门学习》的PDF文档中介绍的内容,来详细组织一下,加深了解,为深入研究Nutch的源代码奠定良好的基础。 这里通过几个标题来叙述。 Nutch爬虫工作策略 Nutch爬虫的工作策略一般则可以分为累积式抓取(cumulative crawling)和增量式抓取(incremental crawling)两种。 累积式抓取是指从某一个时间点开始,通过遍历的方式抓取系统 ...
在没有学习研究Nutch的源代码之前,我认为还是有必要对Nutch的工作流程有一个感性的认识和了解。通过对Nutch工作流程的学习认识,先有一个整体的印象,然后可以很好地指导我们去阅读学习它的源代码,从而更加深入理解Nutch。 当然,也不是唯一的,在阅读一个框架的源代码的时候,只要你选择了一个好的突破口,然后按照基于深度遍历的特性来学习理解,也能起到一定效果。但是,这种方式有点像是对着一个黑盒进行研究,对一个有机体没有一个整体的把握,也就是说没有整体概念,或者整体概念有点模糊。 Nutch工作流程 先展示一个相当生动的图片,它描述了Nutch的工作流程,如图所示:   其实,只要 ...
这里要讲的只是对Nutch-0.9进行抓取网页功能进行配置,即感受一下Nutch的抓取程序的功能,至于测试如何在抓取程序工作完成之后,实现对抓取网页数据进行处理及其搜索程序的测试,在后面的文章中在详细学习研究了。 准备工作 1、Nutch-0.9的下载 Nutch-0.9可以到Apache去下载:http://apache.freelamp.com/lucene/nutch/。(现在最高版本是Nutch-1.0) 2、Cygwin的下载及其安装 文章http://hi.baidu.com/shirdrn/blog/item/b306db828d814aa40cf4d20b.h ...
在接触到一个新的事物的时候,根据人的认知过程,我们势必要知道这个新事物的是什么,即What;然后,便是为什么要认知这个新的事物,如果没有任何理由的话说明完全没有必要去了解它,因为它可能对我们没有一点用处,这就是所谓的Why;接着就是How,该如何认知一个新的事物,使用什么样的方式和手段,只有在通过逐步的迭代执行What这个步骤和实施How,我们才能逐步了解、认识、理解这个新事物,使其为我所使用。 这里,我们主要对What和Why进行阐述。 Nutch简介 Nutch是一个使用Java编写的开源的搜索引擎框架,这就是关于Nutch的What的初步认识。既然是搜索引擎框架,自然而然是实现了类似 ...
Global site tag (gtag.js) - Google Analytics