`
文章列表
转自:http://www.geedoo.info/installed-on-the-cloudera-hadoop-cdh-r-and-rhadoop-rhdfs-rmr2-rhbase-rhive.html 前言:RHadoop是由Revolution Analytics发起的一个开源项目,它可以将统计语言R与Hadoop结合起来。目前该项目包括三个R packages,分别为支持用R来编写MapReduce应用的rmr、用于R语言访问HDFS的rhdfs以及用于R语言访问HBASE的rhbase。 一、系统及所需软件版本 服务器操作系统:CentOS 6.3 R语言版本:R-2. ...
一直都知道可以设置jvm heap大小,一直用eclipse写/调试java程序。一直用命令行or console加参数跑程序。现象:在eclipse的配置文件eclipse.ini中设置-vmargs -Xms500m -Xmx1024m,在eclipse中直接run 或者debug某些耗内存的程序时依然出现java.lang.Ou ...

MRUnit测试教程

https://cwiki.apache.org/confluence/display/MRUNIT/MRUnit+Tutorial

MRUnit使用

 
MRUnit是一个用于测试mapreduce程序的java框架,它可以很方便地测试Mapper和rudecer程序   使用方法: 在maven中加入下面配置: <dependency> <groupId>org.apache.mrunit</groupId> <artifactId>mrunit</artifactId> <version>0.9.0-incubating</version> <classifier>hadoop2&l ...
HADOOP篇 HADOOP安装 1.tar -zvxf hadoop-0.19.2.tar.gz 2.HADOOP的安装路径添加到环境文件/etc/profile中: export HADOOP_HOME=/home/hadoop/setup/hadoop-0.19.2export PATH=$HADOOP_HOME/bin:$PATH HADOOP配置 1.在$HADOOP/conf/hadoop-env.sh中配置JAVA环境 export JAVA_HOME=/home/hadoop/setup/jdk1.7.0_04 2.在$HADOOP/conf/hadoo ...
【整理】MySQL引擎     MySQL数 据库引擎取决于MySQL在安装的时候是如何被编译的。要添加一个新的引擎,就必须重新编译MYSQL。在缺省情况下,MYSQL支持三个引擎:ISAM、MYISAM和HEAP。另外两种类型INNODB和BERKLEY(BDB),也常常可以使用。如果技术高超,还可以使用MySQL++ API自己做一个引擎。下面介绍几种数据库引擎:     ISAM:ISAM是一个定义明确且历经时间考验的数据表格管理方法,它在设计之时就考虑到 数据库被查询的次数要远大于更新的次数。因此,ISAM执行读取操作的速度很快,而且不占用大量的内存和存储资源。ISAM的两个主 ...
我在进行两个大表的join时,任务显示成功,但Hadoop出现以下异常: 报出错误如下:  java.lang.RuntimeException:java.lang.reflect.InvocationTargetException       at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:81)       at org.apache.hadoop.io.WritableUtils.clone(WritableUtils.java:231)       at com.***. ...
最近有些同事些sql进行查询时,sql语句里不指定partition字段,这样直接造成hive生成Hadoop的MapReduce任务时查询的数据量巨大,从而影响整个集群的性能。经研究可以通过配置Hive参数来预防此类错误,从而达到优化的目的。 在hive-site.xml中添加以下配置: <property><name>hive.mapred.mode</name>                                                  <value>strict</value></proper ...

Hive 查询优化【引文】

    博客分类:
  • Hive
 
一、join优化 Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率。 Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个mapred程序中。 案例: SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1) ...
linux zip 命令详解 功能说明:压缩文件。 语 法:zip [-AcdDfFghjJKlLmoqrSTuvVwXyz$][-b <工作目录>][-ll][-n <字尾字符串>][-t <日期时间>][-<压缩效率>][压缩文件][文件...][-i <范本样式>][-x <范本样式>] 补充说明:zip是个使用广泛的压缩程序,文件经它压缩后会另外产生具有".zip"扩展名的压缩文件。 参 数: -A 调整可执行的自动解压缩文件。 -b<工作目录> 指定暂时存放文件的目录。 -c ...
  准备 1.        下载zookeeper,下载地址http://www.apache.org/dyn/closer.cgi/zookeeper,此处为zookeeper-3.3.2 2.        分别解压至zookeepr集群机器(一般为基数台机器)相应目录(此处为$ZOOKEEPER_HOME),集群为mem1,mem2,mem3(hosts对应)。 配置 1. 
Hadoop的shell脚本分析         这些天一直学习hadoop,学习中也遇到了许多的问题,主要是对hadoop的shell脚本和hadoop的源码概念不够清楚,所以我就对hadoop的bin目录下的shell脚本进行了研究,有一些成果想记录下来。   脚本分析:   bin=`dirname "$0"` bin=`cd "$bin"; pwd` if [ -e "$bin/../libexec/hadoop-config.sh" ]; then . "$bin"/../libex ...
单机版搭建hadoop环境图文解析     安装过程: 一、安装Linux操作系统二、在Ubuntu下创建hadoop用户组和用户三、在Ubuntu下安装JDK四、修改机器名五、安装ssh服务
1、主服务器和从服务器必须开启安全认证:--auth2、主服务器和从服务器的admin数据库中必须有全局用户。    在MongoDB2.0.2版本测试时,从服务器的admin数据库中没有全局用户时也能进行复制,尽管admin中无用户,客户端连接此服务器不进行验证(即--auth参数失效),但从服务器的--auth必须指定。既然启用了--auth,就应该在从服务器的admin中增加一个用户。3、主服务器的local数据库和从服务器的local数据均有名为repl且密码相同的用户名。4、主服务器设置:   mongod --port 10000 --dbpath datam --logpath ...
root@localhost conf]# /usr/local/nginx/sbin/nginx/usr/local/nginx/sbin/nginx: error while loading shared libraries: libpcre.so.1: cannot open shared object file: No such file or directory  从错误看出是缺少lib文件导致,进一步查看下  [root@localhost conf]# ldd $(which /usr/local/nginx/sbin/nginx)linux-gate.so.1 => ( ...
Global site tag (gtag.js) - Google Analytics