- 浏览: 106336 次
- 性别:
- 来自: 合肥
最新评论
文章列表
Sessions:
http://hadoopsummit.org/program/
Reading list:
Optimizing MapReduce Job Performance (http://www.slideshare.net/cloudera/mr-perf)
Optimizing MapReduce job performance is often seen as something of a black art. In order to maximize performance, developers need to understand the inner ...
- 2013-04-01 19:36
- 浏览 274
- 评论(0)
软链接是另一个文件,作用可以理解为一个指针,作用在这个文件上的操作除了删除都直接转向实际指向文件,由于是一个真实的文件所以占用磁盘空间
硬链接可以认为不是一个文件,它只是实际文件的一个别名,它的作用是防止真实文件被误操作,给一个文件建立硬链接后,他们互为别名,删除其中任意一个,这样用RM命令只会删除该别名,实际文件并不会被删除。只有链接数为0时,才会删除原始文件。
可以通过命令ls -i 查看其inode号,就会发现, 不同的硬链接的inode号是一样的,都是指向同一个文件,可见其只是作为一种备份方式存在,软链接则类似快捷方式,是一个新的文件,其inode号 ...
- 2013-03-27 13:46
- 浏览 256
- 评论(0)
failed task可理解为自杀,也就是task本身出了问题而自杀;killed task可理解为是他杀,也就是jobtracker认为这个任务的执行是多余的,所以把任务直接杀掉。起初用hadoop的时候经常在一个complete的job中看到几个failed 或者是 killed task ...
- 2013-03-25 21:31
- 浏览 232
- 评论(0)
, Status : FAILEDError:Java heap space
解决方法:设置合适的mapred.child.java.opts,我设置成400m解决此问题,但是设置为300m仍然出错。<property><name>mapred.child.java.opts</name><value>-Xmx400m</value><description>Java opts for the task tracker child processes.The following symbol, if present, ...
- 2013-03-20 20:41
- 浏览 359
- 评论(0)
打包存档命令:
[zhouhh@Hadoop48 ~]$ hadoop archive
archive -archiveName NAME -p *
在父目录后面可以跟若干子目录,也可以不跟,直接打全部父目录。
如:
hadoop archive -archiveName foo.har -p /user/hadoop dir1/dir2 dir3 /user/zoo/
表示dir1/dir2和dir3都是/user/hadoop子目录,选择父目录下的部分目录打包。
实践:
要打包的目录:
[zhouhh@Hadoop48 ~]$ hadoop fs -lsr output ...
- 2013-03-20 20:32
- 浏览 329
- 评论(0)
数据生成:
hadoop jar hadoop-mapreduce-examples-2.0.3-alpha.jar teragen 10000000 /liuqiang/terasort/1G/
排序:
hadoop jar hadoop-mapreduce-examples-2.0.3-alpha.jar terasort /liuqiang/terasort/1G/ /liuqiang/1G/output/
- 2013-03-19 20:07
- 浏览 251
- 评论(0)
复制过来没有链接了,要看的去:
http://duanple.blog.163.com/blog/static/709717672011330101333271/
分布式系统领域经典论文翻译集
2011-04-30 10:13:33| 分类: 搜索与分布式 | 标签:分布式 google distributed 论文 scale |字号大中小 订阅
分布式领域论文译序
sql&nosql 年代记
- 2013-03-10 20:35
- 浏览 339
- 评论(0)
[1] Zhou AY. Data intensive computing-challenges of data management techniques. Communications of CCF, 2009,5(7):50.53 (in Chinese with English abstract).[2] Cohen J, Dolan B, Dunlap M, Hellerstein JM, Welton C. MAD skills: New analysis practices for big data. PVLDB, 2009,2(2): 1481.1492.[3] Schroede ...
- 2013-03-10 20:35
- 浏览 329
- 评论(0)
Google
1. nosqldbs-NOSQL Introduction and Overview
2. system and method for data distribution(2009)
3. System and method for large-scale data processing using an application-independent framework(2010)
4. MapReduce: Simplified Data Processing on Large Clusters;
5. MapReduce-- a flexible data pr ...
- 2013-03-10 20:34
- 浏览 406
- 评论(0)
RM(ResourceManager)每次在启动之前都会进行初始化并执行一次recovery操作,然后才启动RM,对外提供服务。
RM启动流程如下图:
- 2013-03-07 16:16
- 浏览 332
- 评论(0)
转自:http://blog.csdn.net/ae86_fc/article/details/5957715
对于使用hadoop进行日志分析等工作的开发者来说,相信一直都面临着一个非常头 疼的问题。那就是:对hadoop的mapreduce作业,在分布式集群上进行单个task的单步debug跟踪调试无法办到。只能在本地进行调试,然
后提交到集群中运行,但是集群中如果某个task总是失败,要对这一个task进行单步跟踪就非常困难。其实原因很简单,因为当把作业提交到hadoop 集群进行运行的时候,你事先根本就不知道那个map或者reduce的task会被分配到哪个tasktr ...
- 2013-03-07 11:34
- 浏览 366
- 评论(0)
在hadoop中,当一个job的调试完成,执行成功后,job的开发者接下来该思考的问题通常就是:如何将job跑的更快,更加高效,更节省资源呢?这个话题其实是一个老生常谈的话题了,很多有经验的工程师,开发人员和机构都分享 ...
- 2013-03-07 11:31
- 浏览 228
- 评论(0)
Linux: umount 时出现 "Device is busy" 的解法
当任何目录有 mount, 然后有程序使用/挂在那个目录上的话, 就没有办法 umount 掉, 於 umount 时会出现 Device is busy 的讯息.
要怎麼找出是哪个程序挂在那个目录上? 然后去把那个程式砍掉呢?
使用 fuser 的指令
那要怎麼找出是哪个程式挂在那个目录上?可以使用 fuser - identify processes using files or sockets
假设现在 mount 起来的目录是 /media/share
* 查询: fuser ...
- 2013-03-06 22:36
- 浏览 375
- 评论(0)
###########################################
### 挂载网络文件夹 ###
###########################################
NFS说明
=======
NFS是Net File System的简写,即网络文件系统.
NFS允许一个系统在网络上与它人共享目录和文件。通过使用NFS,用户和程序可以象访问本地文件一样访问远端系统上的文件。
使用NFS的原因
=============
由于要在公司内部配置YUM,而且准备用Apache发布,能通过Http访问。A服务器上有http服务,但是空间不足 ...
- 2013-03-06 22:34
- 浏览 245
- 评论(0)
准备文件: tentakel.conf
tentakel-2.2-1.2.el5.rf.noarch.rpm
安装后, tentakel.conf放在 /etc/下面, 内容如下:
[root@node12 ~]# cat /etc/tentakel.conf
# $Id: tentakel.conf.example,v 1.10 2005/03/13 18:43:41 cran Exp $
# Example configuration file for tentakel
# first section: global parameters
set ...
- 2013-03-06 21:05
- 浏览 559
- 评论(0)