Nutch fetch job中时间的分配比例 - 心如大海 - ITeye博客

`

p_x1984

浏览: 1169419 次
性别:
来自: 北京

最近访客更多访客>>

u012363178

清风_秋雨

sun80264629

shaoaj

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

pandaball：支持一下，心如大海
做有气质的男人
recall992：山东分公司的风格[color=brown]岁的法国电视[/co ...
solr是如何存储索引的
zhangsasa： -services "services-config ...
flex中endpoint的作用是什么？
来利强：非常感谢
java使用json所需要的几个包
zhanglian520：有参考价值。
hadoop部署错误之一：java.lang.IllegalArgumentException: Wrong FS

Nutch fetch job中时间的分配比例

博客分类：

nutch

阅读更多

下面是nutch fetch job中map shuffle reduce的时间花费的一个列表：

server name

Fri Mar 05 09:45:13 GMT 2010

job_201003050945_0006

fetch crawl/segments/20100305102846

user name

User : username --用户名
JobName : fetch crawl/segments/20100305102846 --job的名称
JobConf : hdfs://servername:9000/opt/crawler/data/mapred/system /job_201003050945_0006/job.xml --使用的配置文件位置
Submitted At : 5/03 10:30:29 --提交时间
Launched At : 5/03 10:30:30 (0sec) --开始时间
Finished At : 6/03 17:04:09 (30hrs, 33mins, 38sec) --结束时间
Status : SUCCESS --结束状态

---从下面的分析可以得出map时间 22hrs avg
---从下面的分析可以得出shuffle时间 30hrs avg
---从下面的分析可以得出reduce时间 29mins avg

Time taken by best performing Map task task_201003050945_0006_m_000014 : 14hrs, 5mins, 23sec

Average time taken by Map tasks: 22hrs, 6mins, 40sec

Worse performing map tasks

Task Id	Time taken
task_201003050945_0006_m_000010	24hrs, 47mins, 14sec
task_201003050945_0006_m_000011	24hrs, 44mins, 1sec
task_201003050945_0006_m_000013	24hrs, 42mins, 23sec
task_201003050945_0006_m_000012	24hrs, 29mins, 6sec
task_201003050945_0006_m_000007	24hrs, 19mins, 44sec
task_201003050945_0006_m_000006	24hrs, 18mins, 54sec
task_201003050945_0006_m_000001	24hrs, 18mins, 41sec
task_201003050945_0006_m_000008	24hrs, 18mins, 26sec
task_201003050945_0006_m_000000	24hrs, 17mins, 7sec
task_201003050945_0006_m_000005	24hrs, 16mins, 2sec

The last Map task task_201003050945_0006_m_000016 finished at (relative to the Job launch time): 6/03 16:32:44 (30hrs, 2mins, 14sec)

Time taken by best performing shuffle task_201003050945_0006_r_000004 : 30hrs, 2mins, 0sec

Average time taken by Shuffle: 30hrs, 2mins, 10sec

Worse performing Shuffle(s)

Task Id	Time taken
task_201003050945_0006_r_000000	30hrs, 2mins, 26sec
task_201003050945_0006_r_000002	30hrs, 2mins, 18sec
task_201003050945_0006_r_000001	30hrs, 2mins, 18sec
task_201003050945_0006_r_000003	30hrs, 2mins, 4sec
task_201003050945_0006_r_000005	30hrs, 2mins, 3sec
task_201003050945_0006_r_000006	30hrs, 2mins, 2sec
task_201003050945_0006_r_000004	30hrs, 2mins, 0sec

The last Shuffle task_201003050945_0006_r_000000 finished at (relative to the Job launch time): 6/03 16:33:08 (30hrs, 2mins, 37sec)

Time taken by best performing Reduce task : task_201003050945_0006_r_000002 : 27mins, 43sec

Average time taken by Reduce tasks: 29mins, 38sec

Worse performing reduce tasks

Task Id	Time taken
task_201003050945_0006_r_000000	31mins, 9sec
task_201003050945_0006_r_000001	30mins, 36sec
task_201003050945_0006_r_000003	29mins, 54sec
task_201003050945_0006_r_000005	29mins, 27sec
task_201003050945_0006_r_000004	29mins, 22sec
task_201003050945_0006_r_000006	29mins, 14sec
task_201003050945_0006_r_000002	27mins, 43sec

分享到：

readdb导致fetch job中断的问题 | Linux压缩打包命令使用方法

2011-02-16 13:38
浏览 1281
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

nutch中文分词: nutch应用，nutch中文分词，nutch中文乱码

nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据: nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

Nutch中文教程nutcher.zip: nutcher 是 Apache Nutch 的中文教程，在github上托管。nutch社区目前缺少教程和文档，而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档，供开发者学习。 github地址： ...

Nutch中文分词插件的编写与配置: Nutch中文分词插件的编写与配置，由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...

nutch 初学文档教材: Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。目录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....

Nutch相关框架视频教程: 资源名称：Nutch相关框架视频教程资源目录：【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...

基于Nutch中文分词的研究与实现: 作为舆情监测系统的一部分，本文的目标是基于Nutch，同时，结合目前最常用中文分词技术，根据不同的中文分词方法，实验并得出不同分词方法在性能以及使用环境上的优缺点，以此为舆情监测系统选择合适的中文分词方法...

nutch的源码解读和nutch入门: 学习nutch 源码解读轻松入门搭建自己的nutch搜索引擎

nutch网页爬取总结: nutch安装指南，nutch教程，nutch网络爬取

eclipse配置nutch，eclipse配置nutch: eclipse配置nutch，eclipse配置nutch

Nutch相关框架视频教程讲义杨尚川: 1、通过nutch，诞生了hadoop、tika、gora。 2、 nutch通过ivy来进行依赖管理（1.2之后）。...通过hadoop命令把apache-nutch-1.6.job提交给hadoop的JobTracker。 7、 nutch入门重点在于分析nutch脚本文件

Apache Nutch v1.15: 在Nutch的进化过程中，产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速，极其火爆，尤其是Hadoop，其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析...

nutch无法下载中文文件的问题: nutch无法下载中文文件的问题 nutch无法下载中文文件的问题

Eclipse中编译Nutch-1.0: Eclipse 中编译 Nutch-1.0 运行源代码

nutch使用&Nutch;入门教程: nutch使用&Nutch;入门教程 pdf

实验报告(利用Nutch和IKanalyzer构造中文分词搜索引擎): 利用Nutch和IKanalyzer构造中文分词搜索引擎

Nutch搜索引擎·Nutch浅入分析（第5期）: 1.1 Nutch 基本原理 1.1.1 Nutch 基本组成 1.1.2 Nutch 工作流程 1.2 Nutch 流程详解 1.2.1 Nutch 数据流程 1.2.2 Nutch 流程分析

Nutch搜索引擎·Nutch简单应用（第3期）: Nutch搜索引擎·Nutch简单应用（第3期） 1.1 Nutch 命令详解 1.2 Nutch 简单应用

Nutch_插件深入研究: nutch插件，安装nutch插件，mysql与nutch

nutch1.2测试文档: nutch1.2测试文档

Global site tag (gtag.js) - Google Analytics