nutch的配置文件我们可以从Crawl.java中看起,在main函数中, 首先加载配置类: Configuration conf = NutchConfiguration.createCrawlConfiguration();,其中createCrawlConfiguration()类为
public static Configuration createCrawlConfiguration() {
Configuration conf = new Configuration();
addNutchResources(conf, true);
return conf;
}
Configuration加载hadoop的配置文件,NutchResources加载nutch-default.xml,crawl-tool.xml和nutch-site.xml,越后面加载优先级越高。
private static Configuration addNutchResources(Configuration conf,
boolean crawlConfiguration) {
conf.addResource("nutch-default.xml");
if (crawlConfiguration) {
conf.addResource("crawl-tool.xml");
}
conf.addResource("nutch-site.xml");
return conf;
}
在nutch-default.xml中有parse.plugin.file项,用来定义content-type和parsers的联系,映射到parse-plugin.xml文件。
parse-plugin.xml文件定义了contentType="text/html"和id parse-html对应,而parse-html的值为org.apache.nutch.parse.html.HtmlParser类,即利用这个类来处理html网页的解析。
分享到:
相关推荐
Nutch的配置文件主要有三类: 1.Hadoop的配置文件,Hadoop-default.xml和Hadoop-site.xml。 2.Nutch的配置文件,Nutch-default.xml和Nutch-site.xml。 3.Nutch的插件的配置文件,这些插件的配置文件在加载插件的时候...
eclipse配置nutch,eclipse配置nutch
nutch配置nutch-default.xml
图解搜索引擎nutch配置,自己制作的教程。因为在网上搜索到的教程很多都是粗略,对于初学nutch搜索引擎很难配置好,所以自己亲自打造了一篇图解教程!希望你能够配置成功!
nutch配置文件的备注 解决代理问题
这里是在网上搜到的Nutch配置的博客,比较详细,担心自己以后配置的时候忘了,所以传到csdn,顺便分享给大家。
Nutch1.6的编译配置过程,详细介绍了Nutch1.6的下载到安装运行过程。
1 Nutch简介 2 1.1 nutch体系结构 2 2 抓取部分 3 2.1 爬虫的数据结构及含义 3 2.2 抓取目录分析 4 2.3 抓取过程概述 4 2.4 抓取过程分析 5 ...3 配置文件分析 3.1 nutch-default.xml分析 31 …………
Linux 下 Nutch 单机配置
Nutch是一个由Java实现的,刚刚诞生开放源代码(open-source)的web搜索引擎。
nutch 在windows下环境搭配 已经如何在eclipse下配置,有配图,很详细
Nutch配置[汇编].pdf
该文档主要介绍了nutch的安装与配置的过程,以及如何实现网内与往外的抓取。
windows下的nutch配置总结,doc格式的,chm格式是为了方便查看
nutch 1.4 在windows下安装配置
Linux下Nutch分布式配置 使用:分布式爬虫、索引、Nutch搜索本地数据、Nutch搜索HDFS数据。
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
6.1配置Nutch配置文件 ............................................ 9 6.2 执行Nutch分布式爬虫 ........................................ 10 7 Nutch检索 .....................................................
我自己对nutch安装开发环境的一些理解,以及遇到问题的解决方法
nutch1.4 在windows下的安装配置环境搭建