关于nutch爬取的优化有同猿已经说的很清楚了,有兴趣的可以看看下面这个博客。
http://my.oschina.net/junfrank/blog/290404
除此之外我补充本猿在实践过程中遇见的重要的一点,Nutch版本选取的是1.8的版本+hadoop2.2.0。经过测试发现,不论怎么修改配置文件,在fetch阶段还是只启动了两个map,解决此问题结论如下:
一、修改Generator.java文件,注释掉如下代码(这段代码会吧下文中修改的numSlaves修改为1,具体原因本猿未求甚解,单纯加log得到的结果,有仁猿有结论还望告知本猿)
if ("local".equals(job.get("mapred.job.tracker")) && numLists != 1) {
// override
LOG.info("Generator: jobtracker is 'local', generating exactly one partition.");
numLists = 1;
}
二、编译之后修改crawl脚本中的numSlaves变量,将此变量改为实际的hadoop节点数,这样在fetch阶段就是产生随节点数*2的map数量了。
具体机制原理课参考上面博客,大致就是这么改完后generate时就会产生多个文件了,这样每个文件作输入启动一个map就有多个map启动了。
分享到:
相关推荐
nutch安装指南,nutch教程,nutch网络爬取
提高nutch运行效率的原理与方法,nutch的运行过程相对来说还是很慢的,对于一些特殊的应用来说,必须对nutch做很多修改来达到提高速度的目的,本人在这方面有深入研究,可以提高2-5倍性能。
如何通过java程序获得Nutch中网页的详细信息
Nutch搜索引擎数据获取1、 基本原理2、网络蜘蛛3、局域网抓取
本项目是基于Apache Nutch和Solr开发的AJAX页面内容爬取与处理设计源码,主要使用Java进行开发。项目共包含1064个文件,其中Java源代码文件458个,XML配置文件181个,文本文件81个,HTML页面文件56个,JPG图片文件56...
Nutch教程——导入Nutch工程,执行完整爬取 Nutch流程控制源码详解(bin/crawl中文注释版) Nutch教程——URLNormalizer源码详解 Nutch参数配置——http.content.limit ...
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
我们需要去抓取网页数据的时候我们就用nutch来爬取,我们对它进行二次开发使其更加符合我们的需求
资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...
eclipse配置nutch,eclipse配置nutch
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....
nutch使用&Nutch;入门教程 pdf
Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对...
1.1 Nutch 基本原理 1.1.1 Nutch 基本组成 1.1.2 Nutch 工作流程 1.2 Nutch 流程详解 1.2.1 Nutch 数据流程 1.2.2 Nutch 流程分析
Nutch搜索引擎·Nutch简单应用(第3期) 1.1 Nutch 命令详解 1.2 Nutch 简单应用
Nutch是一个优秀的开放源代码的Web搜索引擎。虽然Nutch的页面排序方法比较合理,但是很多情况下仍然不能 满足需要。分析开源搜索引擎Nutch代码,研究了Nutch的页面排序方法。在Nutch原有的结构基础上提出了3种修改...
nutch插件,安装nutch插件,mysql与nutch
nutch配置nutch-default.xml
Nutch开发入门 Nutch安装和使用 Nutch二次开发 很不错