`
文章列表
 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题。 主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。 Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分配到各个reduce中,就是解决数据倾斜的根本所在。规避错误来更好的运行比解决错误更高效。在查看了一些资料后,总结如下。 1数据倾斜的原因 1.1操作: 关键词 情形 后果 ...
 有关文件权限的命令有三种 chgrp: Chgrp命令就是change group的缩写!要被改变的组名必须要在/etc/group文件内存在才行 命令参数:          必要参数:               -c 当发生改变时输出调试信息                ...
 制造namenode宕机的情况 1) kill 掉namenode的进程 [hadoop@hadoop bin]$ kill -9 13481 2)删除dfs.name.dir所指向的文件夹,这里是/home/hadoop/hdfs/name.   current image in_use.lock previous.checkpoint [hadoop@hadoop name]$ rm -rf *   删除name目录下的所有内容,但是必须保证name这个目录是存在的3)从secondarynamenode元数据namesecondary目录下复制到namenode ...
向一个正在运行的Hadoop集群中增加几个新的Nodes 1. 新节点上部署java/hadoop程序,配置相应的环境变量 2. 新节点上增加用户,从master上拷贝id_rsa.pub并配置authorized_keys 3. 新节点上设置host,需要有集群中各节点的host对应 4. 新节点上建立相关的目录,并修改属主 5. master的slaves文件中增加上相的节点,master上增加相应的host 6. 在新节点上启动datanode和tasktracker /opt/sohuhadoop/hadoop/bin/hadoop-daemon.sh start d ...

设置负载均衡器

<!--StartFragment --> 1. 启动bin/start-balancer.sh2. 按照使用率去balancer百分比 -threshold 设置平衡的比例3. 设置频率<property>  <name>dfs.balance.bandwidthPerSec</name>  <value>1048576</value>  <description>        Specifies the maximum amount of bandwidth that each datanode      ...
今天编写代码,用来随机ip地址,为了测试所以先在控制台输出。可每次随机的结果只有一个数字。   开始代码:                  System.out.println(ip[0] + '.' + ip[1] + '.' + ip[2] + '.' + ip[3]);                  只显示出一个数字 猜想,应该因为‘’转换成单个字符,所以只显示一个。 修改:                  System.out.println(ip[0] + "." + ip[1] + "." + ip[2] + " ...
sum()函数和count()函数的区别:   求和用累加sum(),求行的个数用累计count() 数据库中对空值的处理:sum()不计算,count()认为没有此项。
Iterator iter = values.iterator(); Text stationName = (Text) iter.next(); while(iter.hasNext()){ Text record = (Text) iter.next(); // for (Text value : values) { // Text record = (Text) value; Text outValue = new Text(stationNa ...
在Linux系统中,内核为每一个新创建的文件分配一个Inode(索引结点),每个文件都有一个惟一的inode号。文件属性保存在索引结点里,在访问文件时,索引结点被复制到内存在,从而实现文件的快速访问。   软连接~~快捷方式 硬链接~~指针 链接是一种在共享文件和访问它的用户的若干目录项之间建立联系的一种方法。Linux中包括两种链接:硬链接(Hard Link)和软链接(Soft Link),软链接又称为符号链接(Symbolic link)。符号连接相当于Windows下的快捷方式。 一、硬链接(源文件移动后还可以找着的链接) 硬链接说白了是一个指针,指向文件 ...
重点在后面! 删除了master的/tmp目录,结果jps和bin/hive就不能用了,从slave上复制了一份过来,可是jps之后什么都没有··只好重新启动了集群,还是没有,查看了刚复制过来的/tmp,有了本来应该有的.sh文件。/tmp目录下的文件应该是启动时自动创建的,于是我重新启动了master虚拟机,然后jps就有了~好开心 :D 可是bin/hive还不能用···报告缺少目录#sql_1c83_0.MYI这个,创建了之后修改权限,还是不能。这个应该是启动的时候自动创建的。删掉之后果然重启的时候创建了。应该也不是这儿的问题。 可还是会报错Caused by: java.sql. ...
Global site tag (gtag.js) - Google Analytics