`

三,nutch 1.0 爬虫配置与运行

阅读更多

本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接http://zolomon.javaeye.com ).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料http://www.google.com/profiles/solomon.royarr


在解压出来的目录下的bin目录里建立urls文件夹,
在里面创建url.txt,内容为http://www.17173.com
这里为要抓取的入口路径,可以设置多个值,也可以放置多个txt文件
然后在cygwin里面进入这个bin目录,
输入./nutch crawl urls -dir file:///d:/solomoncrawl -depth 3
这样就可以看到开始抓取了.



nutch是一个批处理文件,后面跟的命令和参数告诉它该如何运行.
crawl urls是告诉nutch爬虫要crawl一个目录里的url,这个目录的名字是urls.
nutch爬虫有很多行为,crawl是其中一个主要行为.
-dir参数告诉它该把抓取来的东西放在什么地方,指定了一个d盘下叫solomoncrawl的目录.
-depth参数告诉它该抓取的深度,从入口url开始扩展多少层.
抓取完毕会有一个报告,我这次抓的东西比较少,所以没看出来.

分享到:
评论

相关推荐

    Nutch1.0:Nutch1.0修改版(整合中文分词)原始码修改,编译打包-修改

    在使用这个“Nutch1.0-master”压缩包时,用户需要解压文件,按照提供的文档或说明进行配置,包括设置爬虫的启动参数、分词器的选择和配置等。然后,他们可以运行Nutch的命令行工具进行网页抓取、索引创建以及查询...

    Eclipse中编译Nutch-1.0

    这是因为Nutch作为Apache旗下的开源Web爬虫项目,其运行依赖于Java平台,并对版本有一定要求。 #### 二、项目创建与配置 接下来,需从官方网站下载Nutch-1.0的源代码压缩包(`nutch-1.0.tar.gz`),并进行解压。...

    Nutch_的配置文件

    Nutch的配置文件主要分为三类: 1. **Hadoop的配置文件**:包括`Hadoop-default.xml`和`Hadoop-site.xml`。`Hadoop-default.xml`是Hadoop的默认配置,列出了所有可能的配置选项和它们的默认值。而`Hadoop-site.xml`...

    Nutch-1.0分布式安装手册.rar

    Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并进行索引,是大数据领域中搜索引擎构建的重要工具。这份...

    Nutch程序运行环境配置

    - Nutch运行还需要配置一系列的配置文件,如`conf/nutch-site.xml`、`conf/crawldb.xml`、`conf/regex-urlfilter.txt`等,这些文件定义了爬虫的行为,如抓取策略、存储位置、抓取间隔等。 5. **Hadoop集成**: - ...

    nutch Eclipse

    在本文中,我们将深入探讨如何在 Linux 环境下使用 Eclipse ...通过正确配置 Eclipse、解决授权问题以及修复源代码中的错误,你可以顺利地在本地环境中编译和运行 Nutch,从而进一步理解和定制这个强大的网络爬虫系统。

    windows下安装nutch

    9. **测试Nutch**:在配置完成后,可以运行Nutch的测试命令,如`bin/nutch test`,来验证Nutch是否能正常工作。这将执行一系列检查,确保所有必需的服务和组件都已就绪。 通过以上步骤,你就可以在Windows环境下...

    debugNutchWithEclipse

    - **Java版本**:推荐使用Java 1.6,该版本与Nutch 1.0兼容性良好。 - **操作系统**:本指南适用于Ubuntu等大多数平台,也包括了针对Windows XP和Vista的操作指南。 #### 步骤详解 ##### Windows用户的特殊准备 ...

    Nutch在MyEclipse下的配置[参照].pdf

    1. **配置运行参数**: - 在MyEclipse中,右键点击项目,选择`Run As -> Run Configurations`。 - 在`Program arguments`中输入爬行命令,例如: ``` urls -dir myDir -depth 2 -topN 50 ``` - 在`VM ...

    Eclipse中编译Nutch-0.9

    - **配置运行参数**:使用Run Configurations功能,设置具体的爬虫运行参数,包括爬取深度、存储路径等,确保Nutch能够按照预期执行爬取任务。 #### 总结 本文详细介绍了在Eclipse环境下编译Nutch-0.9的完整流程,...

    Nutch使用入门

    2. **配置工作目录** - 使用Cygwin进入Nutch的安装目录,例如 `cd /cygdrive/d/nutch-1.0`。 3. **测试Nutch命令** - 运行 `bin/nutch` 命令,检查是否可以正常使用。 **配置网络蜘蛛标识:** 在 `conf/nutch-...

    nutch学习笔记之第一天初学

    Nutch的配置文件`nutch-site.xml`位于`conf/`目录下,用于指定各种运行时参数。例如,下面的示例代码展示了如何配置HTTP代理名称和版本: ```xml <name>http.agent.name</name> <value>MyNutchAgent ...

Global site tag (gtag.js) - Google Analytics