- 浏览: 1169419 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (350)
- Ajax研究 (2)
- javascript (22)
- struts (15)
- hibernate (12)
- spring (8)
- 我的生活 (28)
- jsp (2)
- 我的随笔 (84)
- 脑筋急转弯 (1)
- struts2 (2)
- ibatis (1)
- groovy (1)
- json (4)
- flex (20)
- Html Css (5)
- lucene (11)
- solr研究 (2)
- nutch (25)
- ExtJs (3)
- linux (6)
- 正则表达式 (2)
- xml (1)
- jetty (0)
- 多线程 (1)
- hadoop (40)
- mapreduce (5)
- webservice (2)
- 云计算 (8)
- 创业计划 (1)
- android (8)
- jvm内存研究 (1)
- 新闻 (2)
- JPA (1)
- 搜索技术研究 (2)
- perl (1)
- awk (1)
- hive (7)
- jvm (1)
最新评论
-
pandaball:
支持一下,心如大海
做有气质的男人 -
recall992:
山东分公司的风格[color=brown]岁的法国电视[/co ...
solr是如何存储索引的 -
zhangsasa:
-services "services-config ...
flex中endpoint的作用是什么? -
来利强:
非常感谢
java使用json所需要的几个包 -
zhanglian520:
有参考价值。
hadoop部署错误之一:java.lang.IllegalArgumentException: Wrong FS
下面是nutch fetch job中map shuffle reduce的时间花费的一个列表:
server name | Fri Mar 05 09:45:13 GMT 2010 | job_201003050945_0006 | fetch crawl/segments/20100305102846 | user name |
User : username
--用户名
JobName :
fetch crawl/segments/20100305102846 --job的名称
JobConf :
hdfs://servername:9000/opt/crawler/data/mapred/system /job_201003050945_0006/job.xml --使用的配置文件位置
Submitted At :
5/03 10:30:29 --提交时间
Launched At :
5/03 10:30:30 (0sec) --开始时间
Finished At :
6/03 17:04:09 (30hrs, 33mins, 38sec) --结束时间
Status :
SUCCESS --结束状态
---从下面的分析可以得出map时间 22hrs avg
---从下面的分析可以得出shuffle时间 30hrs avg
---从下面的分析可以得出reduce时间 29mins avg
Time taken by best performing Map task task_201003050945_0006_m_000014 : 14hrs, 5mins, 23sec
Average time taken by Map tasks: 22hrs, 6mins, 40sec
Worse performing map tasks
Task Id | Time taken |
task_201003050945_0006_m_000010 | 24hrs, 47mins, 14sec |
task_201003050945_0006_m_000011 | 24hrs, 44mins, 1sec |
task_201003050945_0006_m_000013 | 24hrs, 42mins, 23sec |
task_201003050945_0006_m_000012 | 24hrs, 29mins, 6sec |
task_201003050945_0006_m_000007 | 24hrs, 19mins, 44sec |
task_201003050945_0006_m_000006 | 24hrs, 18mins, 54sec |
task_201003050945_0006_m_000001 | 24hrs, 18mins, 41sec |
task_201003050945_0006_m_000008 | 24hrs, 18mins, 26sec |
task_201003050945_0006_m_000000 | 24hrs, 17mins, 7sec |
task_201003050945_0006_m_000005 | 24hrs, 16mins, 2sec |
The last Map task task_201003050945_0006_m_000016 finished at (relative to the Job launch time): 6/03 16:32:44 (30hrs, 2mins, 14sec)
Time taken by best performing shuffle task_201003050945_0006_r_000004 : 30hrs, 2mins, 0sec
Average time taken by Shuffle: 30hrs, 2mins, 10sec
Worse performing Shuffle(s)
Task Id | Time taken |
task_201003050945_0006_r_000000 | 30hrs, 2mins, 26sec |
task_201003050945_0006_r_000002 | 30hrs, 2mins, 18sec |
task_201003050945_0006_r_000001 | 30hrs, 2mins, 18sec |
task_201003050945_0006_r_000003 | 30hrs, 2mins, 4sec |
task_201003050945_0006_r_000005 | 30hrs, 2mins, 3sec |
task_201003050945_0006_r_000006 | 30hrs, 2mins, 2sec |
task_201003050945_0006_r_000004 | 30hrs, 2mins, 0sec |
The last Shuffle task_201003050945_0006_r_000000 finished at (relative to the Job launch time): 6/03 16:33:08 (30hrs, 2mins, 37sec)
Time taken by best performing Reduce task : task_201003050945_0006_r_000002 : 27mins, 43sec
Average time taken by Reduce tasks: 29mins, 38sec
Worse performing reduce tasks
Task Id | Time taken |
task_201003050945_0006_r_000000 | 31mins, 9sec |
task_201003050945_0006_r_000001 | 30mins, 36sec |
task_201003050945_0006_r_000003 | 29mins, 54sec |
task_201003050945_0006_r_000005 | 29mins, 27sec |
task_201003050945_0006_r_000004 | 29mins, 22sec |
task_201003050945_0006_r_000006 | 29mins, 14sec |
task_201003050945_0006_r_000002 | 27mins, 43sec |
发表评论
-
nutch-1.2结合hadoop分布式搜索
2011-07-13 10:50 2613nutch-1.2结合hadoop分布式搜索。 1、网上关于 ... -
nutch-1.x分布式索引指定
2011-07-04 17:15 12201、nutch-1.x中在crawl.java中。最后有这么一 ... -
在nuthc中加入中文分词
2011-05-15 11:41 554nutch实用的分词是默认的,对中文支持的不是很好。 网上有 ... -
nutch1.2中加入中文分词以及搜索错误解决
2011-03-02 12:15 1386在nutch当中加入中文分词。这里我使用的IK_Analyze ... -
使用ant编译时错误:Specify at least one source--a file or resource
2011-02-22 11:12 2424将命令环境切换到Nutch目录下,执行ant命令。出现如下错误 ... -
readdb导致fetch job中断的问题
2011-02-16 13:39 1596Nutch readdb命令可以用来统计目前crawldb库里 ... -
nutch UI 多台机子部署有关jetty配置servlet的问题
2010-01-18 17:35 2422我们jetty是一个小型的web服务器,可以嵌入到程序当中去, ... -
nutch中plugin.folders的配置
2009-12-21 18:07 2387今天在公司做nutch的调试时,犯了一个低级的错误,在这里记录 ... -
把另外的一个项目加入了nutch中来
2009-12-20 23:59 1035周末在家闲的慌,把在公司搞的nutch拿回来在家里试着做了下, ... -
今天来用一个例子来详细讲解下nutch当中到底是如何自定义插件的
2009-12-17 10:29 1607接上面一篇,今天来用一个例子来详细讲解下nutch当中到底是如 ... -
nutch plugin详细分析
2009-12-16 18:06 1356当某个插件需要被加载时, Nutch 会加载所有插件的相关接口 ... -
nutch plugin的流程以及如何自定义plugin
2009-12-16 18:04 1950PluginRepository 是plugin的入口,保存了 ... -
如何读取nutch抓取数据
2009-12-16 17:43 3563如何读取nutch抓取数据 1.首先nutch的配置已经在博 ... -
Nutch1.0 Ui启动在tomcat中的配置
2009-12-07 14:09 1316<!-- @pa ... -
nutch如何才能抓取到动态的url
2009-11-25 15:27 5295http://www.tianya.cn/new/Tianya ... -
配置完成nutch容易出现的错误
2009-11-25 11:50 24511.1.2 运行crawl报错Job failed Ex ... -
在eclipse中如何配置nutch1.0
2009-11-25 11:44 1387<1>: 首先从http://apache.eto ... -
nutch的基本工作流程理解
2009-11-21 00:17 1849(一):Nutch的工作流程: Crawdb、l ... -
cygwin配置说明
2009-11-21 00:15 2328开始,一步一步来:了解Cygwin的人都知道,就是到 : ht ... -
第一次使用nutch
2009-11-19 23:13 1223Nutch 是一个基于Lucene开发的诞生不久的开放源代码( ...
相关推荐
nutch应用,nutch中文分词,nutch中文乱码
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
nutcher 是 Apache Nutch 的中文教程,在github上托管。nutch社区目前缺少教程和文档,而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 github地址: ...
Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....
资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...
作为舆情监测系统的一部分,本文的目标是基于Nutch,同时,结合目前最常用中文分词技术,根据不同的中文分词方法,实验并得出不同分词方法在性能以及使用环境上的优缺点,以此为舆情监测系统选择合适的中文分词方法...
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎
nutch安装指南,nutch教程,nutch网络爬取
eclipse配置nutch,eclipse配置nutch
1、 通过nutch,诞生了hadoop、tika、gora。 2、 nutch通过ivy来进行依赖管理(1.2之后)。...通过hadoop命令把apache-nutch-1.6.job提交给hadoop的JobTracker。 7、 nutch入门重点在于分析nutch脚本文件
在Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多种现有的开源内容解析...
nutch无法下载中文文件的问题 nutch无法下载中文文件的问题
Eclipse 中编译 Nutch-1.0 运行源代码
nutch使用&Nutch;入门教程 pdf
利用Nutch和IKanalyzer构造中文分词搜索引擎
1.1 Nutch 基本原理 1.1.1 Nutch 基本组成 1.1.2 Nutch 工作流程 1.2 Nutch 流程详解 1.2.1 Nutch 数据流程 1.2.2 Nutch 流程分析
Nutch搜索引擎·Nutch简单应用(第3期) 1.1 Nutch 命令详解 1.2 Nutch 简单应用
nutch插件,安装nutch插件,mysql与nutch
nutch1.2测试文档