`
cloudeagle
  • 浏览: 106336 次
  • 性别: Icon_minigender_1
  • 来自: 合肥
社区版块
存档分类
最新评论
文章列表
Sessions: http://hadoopsummit.org/program/ Reading list: Optimizing MapReduce Job Performance (http://www.slideshare.net/cloudera/mr-perf) Optimizing MapReduce job performance is often seen as something of a black art. In order to maximize performance, developers need to understand the inner ...
软链接是另一个文件,作用可以理解为一个指针,作用在这个文件上的操作除了删除都直接转向实际指向文件,由于是一个真实的文件所以占用磁盘空间 硬链接可以认为不是一个文件,它只是实际文件的一个别名,它的作用是防止真实文件被误操作,给一个文件建立硬链接后,他们互为别名,删除其中任意一个,这样用RM命令只会删除该别名,实际文件并不会被删除。只有链接数为0时,才会删除原始文件。 可以通过命令ls -i 查看其inode号,就会发现, 不同的硬链接的inode号是一样的,都是指向同一个文件,可见其只是作为一种备份方式存在,软链接则类似快捷方式,是一个新的文件,其inode号 ...
failed task可理解为自杀,也就是task本身出了问题而自杀;killed task可理解为是他杀,也就是jobtracker认为这个任务的执行是多余的,所以把任务直接杀掉。起初用hadoop的时候经常在一个complete的job中看到几个failed 或者是 killed task ...
, Status : FAILEDError:Java heap space 解决方法:设置合适的mapred.child.java.opts,我设置成400m解决此问题,但是设置为300m仍然出错。<property><name>mapred.child.java.opts</name><value>-Xmx400m</value><description>Java opts for the task tracker child processes.The following symbol, if present, ...
打包存档命令: [zhouhh@Hadoop48 ~]$ hadoop archive archive -archiveName NAME -p * 在父目录后面可以跟若干子目录,也可以不跟,直接打全部父目录。 如: hadoop archive -archiveName foo.har -p /user/hadoop dir1/dir2 dir3 /user/zoo/ 表示dir1/dir2和dir3都是/user/hadoop子目录,选择父目录下的部分目录打包。 实践: 要打包的目录: [zhouhh@Hadoop48 ~]$ hadoop fs -lsr output ...
数据生成: hadoop jar hadoop-mapreduce-examples-2.0.3-alpha.jar teragen 10000000 /liuqiang/terasort/1G/ 排序: hadoop jar hadoop-mapreduce-examples-2.0.3-alpha.jar terasort /liuqiang/terasort/1G/ /liuqiang/1G/output/
复制过来没有链接了,要看的去: http://duanple.blog.163.com/blog/static/709717672011330101333271/ 分布式系统领域经典论文翻译集 2011-04-30 10:13:33| 分类: 搜索与分布式 | 标签:分布式 google distributed 论文 scale |字号大中小 订阅 分布式领域论文译序 sql&nosql 年代记
[1] Zhou AY. Data intensive computing-challenges of data management techniques. Communications of CCF, 2009,5(7):50.53 (in Chinese with English abstract).[2] Cohen J, Dolan B, Dunlap M, Hellerstein JM, Welton C. MAD skills: New analysis practices for big data. PVLDB, 2009,2(2): 1481.1492.[3] Schroede ...
Google 1. nosqldbs-NOSQL Introduction and Overview 2. system and method for data distribution(2009) 3. System and method for large-scale data processing using an application-independent framework(2010) 4. MapReduce: Simplified Data Processing on Large Clusters; 5. MapReduce-- a flexible data pr ...
RM(ResourceManager)每次在启动之前都会进行初始化并执行一次recovery操作,然后才启动RM,对外提供服务。 RM启动流程如下图:
转自:http://blog.csdn.net/ae86_fc/article/details/5957715 对于使用hadoop进行日志分析等工作的开发者来说,相信一直都面临着一个非常头 疼的问题。那就是:对hadoop的mapreduce作业,在分布式集群上进行单个task的单步debug跟踪调试无法办到。只能在本地进行调试,然 后提交到集群中运行,但是集群中如果某个task总是失败,要对这一个task进行单步跟踪就非常困难。其实原因很简单,因为当把作业提交到hadoop 集群进行运行的时候,你事先根本就不知道那个map或者reduce的task会被分配到哪个tasktr ...
在hadoop中,当一个job的调试完成,执行成功后,job的开发者接下来该思考的问题通常就是:如何将job跑的更快,更加高效,更节省资源呢?这个话题其实是一个老生常谈的话题了,很多有经验的工程师,开发人员和机构都分享 ...
Linux: umount 时出现 "Device is busy" 的解法 当任何目录有 mount, 然后有程序使用/挂在那个目录上的话, 就没有办法 umount 掉, 於 umount 时会出现 Device is busy 的讯息. 要怎麼找出是哪个程序挂在那个目录上? 然后去把那个程式砍掉呢? 使用 fuser 的指令 那要怎麼找出是哪个程式挂在那个目录上?可以使用 fuser - identify processes using files or sockets 假设现在 mount 起来的目录是 /media/share * 查询: fuser ...
########################################### ### 挂载网络文件夹 ### ########################################### NFS说明 ======= NFS是Net File System的简写,即网络文件系统. NFS允许一个系统在网络上与它人共享目录和文件。通过使用NFS,用户和程序可以象访问本地文件一样访问远端系统上的文件。 使用NFS的原因 ============= 由于要在公司内部配置YUM,而且准备用Apache发布,能通过Http访问。A服务器上有http服务,但是空间不足 ...
准备文件: tentakel.conf tentakel-2.2-1.2.el5.rf.noarch.rpm 安装后, tentakel.conf放在 /etc/下面, 内容如下: [root@node12 ~]# cat /etc/tentakel.conf # $Id: tentakel.conf.example,v 1.10 2005/03/13 18:43:41 cran Exp $ # Example configuration file for tentakel # first section: global parameters set ...
Global site tag (gtag.js) - Google Analytics