`
chengqianl
  • 浏览: 51619 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

nutch 配置文件

阅读更多

NutchConfiguration 类中的初始化
  public static Configuration createCrawlConfiguration() {
    Configuration conf = new Configuration();
    addNutchResources(conf, true);
    return conf;
  }
调用
NutchConfiguration 中的
private static Configuration addNutchResources(Configuration conf,
                                                 boolean crawlConfiguration) {
    conf.addResource("nutch-default.xml");
    if (crawlConfiguration) {
      conf.addResource("crawl-tool.xml");
    }
    conf.addResource("nutch-site.xml");
    return conf;
  }
nutch 的配置文件加载顺序如果后面的会覆盖前面的相同的配置

比如在RegexURLFilter 中
// Inherited Javadoc
  protected String getRulesFile(Configuration conf) {
    return conf.get("urlfilter.regex.file");
  }
crawl-tool.xml 中的会覆盖nutch-default.xml 的urlfilter.regex.file 中的文件
crawl-urlfilter.txt
分享到:
评论

相关推荐

    nutch10配置(解决代理问题)

    nutch配置文件的备注 解决代理问题

    Nutch_的配置文件

    Nutch的配置文件主要有三类: 1.Hadoop的配置文件,Hadoop-default.xml和Hadoop-site.xml。 2.Nutch的配置文件,Nutch-default.xml和Nutch-site.xml。 3.Nutch的插件的配置文件,这些插件的配置文件在加载插件的时候...

    Linux下Nutch分布式配置和使用.rar

    6.1配置Nutch配置文件 ............................................ 9 6.2 执行Nutch分布式爬虫 ........................................ 10 7 Nutch检索 .....................................................

    eclipse配置nutch,eclipse配置nutch

    eclipse配置nutch,eclipse配置nutch

    nutch 详细分析(包括配置文件等)

    1 Nutch简介 2 1.1 nutch体系结构 2 2 抓取部分 3 2.1 爬虫的数据结构及含义 3 2.2 抓取目录分析 4 2.3 抓取过程概述 4 2.4 抓取过程分析 5 ...3 配置文件分析 3.1 nutch-default.xml分析 31 …………

    nutch 初学文档教材

    2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 3.1.3 ...

    nutch1.2 java project

    配置好的nutch1.2 java工程,由于上传文件大小限制,只缺少plugins没有传.感觉配置过程太麻烦了,所以感觉有必要分享一下。

    nutch1.2 java的project

    配置好的nutch1 2 java工程 由于上传文件大小限制 只缺少plugins 自己可以添加

    基于Apache Nutch和Solr的AJAX页面内容爬取与处理设计源码

    项目共包含1064个文件,其中Java源代码文件458个,XML配置文件181个,文本文件81个,HTML页面文件56个,JPG图片文件56个,VM文件32个,CRC文件26个,测试文件13个,JAR打包文件12个,以及Properties配置文件9个。...

    Apache Nutch 网络爬虫.rar

    一、Nutch简介 Nutch是一个开源的网络爬虫框架,由Apache基金会开发和维护。它能够高效地抓取并处理海量数据,并提供了...Nutch通过一个名为nutch-site.xml的配置文件来进行配置,用户可以根据自己的需求进行定制化。

    Nutch入门.rar

    2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 ...

    Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3集群爬虫配置攻略

    使用github中最新的nutch-2.x源码,奋战10天拿下的Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3配置...文档详细描述了三者版本不兼容问题的解决方案以及各个配置文件的详细配置。忠诚奉献给各位,如果有什么问题,请留言!

    filter-nutch-plugin

    内链也采用了与外链相同的注意事项,基本上默认情况下,仅索引来自与网页主机不同的主机的内链,如果您要更改此值并索引所有外链,则可以通过nutch-site.xml配置文件, 只需添加以下内容: < name>inlinks.host....

    Nutch-NewsClassify:基于nutch的新闻分类系统

    ##配置文件下载下来的代码后进入apache-nutch-2.3.1目录,项目替换的mongodb,mysql,solr都是本地配置的,如果不是在本地配置的,则需要修改配置文件。 conf / gora.properties中,如果mongodb不是在本

    nutch-auth-example:使用 Nutch 对 mrs.org 进行身份验证和抓取的示例

    运行build.sh以检出 Nutch 主干,构建它,并复制必要的配置文件。 完成后, cd dist使用新配置的 Nutch 发行版。 有关更新的配置文件,请参阅和 。 运行命令bin/crawl urls/ CrawlData/ N , 用作抓取的种子,...

    sek:一个类似 Nutch 的, 基于 Hadoop 的并行式爬虫框架

    即程序提供接口, 然后编写实现该接口的插件程序,打包成 jar 文件放在 CLASSPATH 下, 通过配置文件的配置, 即可运行插件程序中的代码.这样易于应用的拓展.目前打算将 文本解析 部分以插件的机制实现. 这样就能实现...

    mimetype-filter:Nutch 1.x 用于索引阶段 MIME 类型过滤的插件

    mimetype-过滤器 笔记 这个插件已经合并到了 Nutch 项目的主干中。 从 1.10 版开始,此插件将与 ...一个自定义配置文件,其中包含可以使用nutch-site.xml文件中的属性mimetype.filter.file指定的规则: < name

    NutchElasticsearch

    此存储库包含使 Apache Nutch 1.8 与 Elasticsearch 0.90.11 配合使用所需的所有配置。 您需要更改的内容: 在 Apache Nutch 的 conf 文件夹中有一个名为 nutch-site.txt 的文件。 根据您的 Elasticsearch 设置...

    indexer-links:Nutch 1.x插件,可对网页的入站和出站进行索引

    链接提取器Nutch 1.x插件,允许对网页的入站和出...则可以通过nutch-site.xml配置文件, 只需添加以下内容: < property> < name>inlinks.host.ignore</ name> < value>false</ value></ property> 如果只对入站和出站

    Crawling-and-Deduplication-of-Polar-Datasets-Using-Nutch-and-Tika:使用Nutch和Tika对Polar数据集进行爬网和重复数据删除

    #Politeness配置:为了处理礼貌,已将属性添加到文件nutch-site.xml中。 我们将坚果机器人(http.agent.name)标记为CS572 RASNA,代理说明(http.agent.description)设置为一个字符串,表示我们正在作为分配的一...

Global site tag (gtag.js) - Google Analytics