Mapreduce 包
你需从发布页面获得MapReduce tar包。若不能,你要将源码打成tar包。
$ mvn clean install -DskipTests
$ cd hadoop-mapreduce-project
$ mvn clean install assembly:assembly -Pnative |
注意:你需要安装有protoc 2.5.0。
忽略本地建立mapreduce,你可以在maven中省略-Pnative参数。tar包应该在target/directory。
配置环境
假设你已经安装hadoop-common/hadoop-hdfs,并且输出了$HADOOP_COMMON_HOME/$HADOOP_HDFS_HOME,解压hadoop mapreduce 包,配置环境变量$HADOOP_MAPRED_HOME到要安装的目录。$HADOOP_YARN_HOME的配置和$HADOOP_MAPRED_HOME一样.
注意:下面的操作假设你已经运行了hdfs。
设置配置信息
要启动ResourceManager and NodeManager, 你必须升级配置。假设你的 $HADOOP_CONF_DIR是配置目录,并且已经安装了HDFS和core-site.xml。还有2个配置文件你必须设置mapred-site.xml
和yarn-site.xml
.
设置mapred-site.xml
添加下面的配置到你的mapred-site.xml
.
<property>
<name>mapreduce.cluster.temp.dir</name>
<value></value>
<description>No description</description>
<final>true</final>
</property>
<property>
<name>mapreduce.cluster.local.dir</name>
<value></value>
<description>No description</description>
<final>true</final>
</property> |
设置yarn-site.xml
添加下面的配置到你的yarn-site.xml
.
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>host:port</value>
<description>host is the hostname of the resource manager and
port is the port on which the NodeManagers contact the Resource Manager.
</description>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>host:port</value>
<description>host is the hostname of the resourcemanager and port is the port
on which the Applications in the cluster talk to the Resource Manager.
</description>
</property>
<property>
<name>yarn.resourcemanager.scheduler.class</name>
<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
<description>In case you do not want to use the default scheduler</description>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>host:port</value>
<description>the host is the hostname of the ResourceManager and the port is the port on
which the clients can talk to the Resource Manager. </description>
</property>
<property>
<name>yarn.nodemanager.local-dirs</name>
<value></value>
<description>the local directories used by the nodemanager</description>
</property>
<property>
<name>yarn.nodemanager.address</name>
<value>0.0.0.0:port</value>
<description>the nodemanagers bind to this port</description>
</property>
<property>
<name>yarn.nodemanager.resource.memory-mb</name>
<value>10240</value>
<description>the amount of memory on the NodeManager in GB</description>
</property>
<property>
<name>yarn.nodemanager.remote-app-log-dir</name>
<value>/app-logs</value>
<description>directory on hdfs where the application logs are moved to </description>
</property>
<property>
<name>yarn.nodemanager.log-dirs</name>
<value></value>
<description>the directories used by Nodemanagers as log directories</description>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
<description>shuffle service that needs to be set for Map Reduce to run </description>
</property> |
设置capacity-scheduler.xml
确保你放置根队列到capacity-scheduler.xml
.
<property>
<name>yarn.scheduler.capacity.root.queues</name>
<value>unfunded,default</value>
</property>
<property>
<name>yarn.scheduler.capacity.root.capacity</name>
<value>100</value>
</property>
<property>
<name>yarn.scheduler.capacity.root.unfunded.capacity</name>
<value>50</value>
</property>
<property>
<name>yarn.scheduler.capacity.root.default.capacity</name>
<value>50</value>
</property> |
运行守护进程
假设环境变量$HADOOP_COMMON_HOME,$HADOOP_HDFS_HOME,$HADOO_MAPRED_HOME,$HADOOP_YARN_HOME,$JAVA_HOME和$HADOOP_CONF_DIR已经设置正确。$$YARN_CONF_DIR 的设置同 $HADOOP_CONF_DIR。
运行ResourceManager 和 NodeManager 如下:
$ cd $HADOOP_MAPRED_HOME
$ sbin/yarn-daemon.sh start resourcemanager
$ sbin/yarn-daemon.sh start nodemanager |
你应该启动和运行。你可以运行randomwriter如下:
$ $HADOOP_COMMON_HOME/bin/hadoop jar hadoop-examples.jar randomwriter out |
祝你好运。
分享到:
相关推荐
自己编译的64bithadoop-2.2.0版本 [INFO] Reactor Summary: ...This command was run using /home/hadoop/Desktop/hadoop-2.2.0-src/hadoop-dist/target/hadoop-2.2.0/share/hadoop/common/hadoop-common-2.2.0.jar
hadoop-2.2.0 64bit下载,自己编译的 [INFO] Reactor Summary: [INFO] [INFO] Apache Hadoop Main ................................ SUCCESS [1.834s] [INFO] Apache Hadoop Project POM ...........................
hadoop源码2.2.0 Apache Hadoop 2.2.0 is the GA release of Apache Hadoop 2.x. Users are encouraged to immediately move to 2.2.0 since this release is significantly more stable and is guaranteed to ...
hadoop-2.2.0, 64 bit,下载 自己编译的64bit的hadoop-2.2.0,自己lab安装使用。 [INFO] Reactor Summary: [INFO] [INFO] Apache Hadoop Main ................................ SUCCESS [1.834s] [INFO] Apache ...
Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,...
在eclipse中集成hadoop2控件,能够方便编写mapreduce等程序。在hadoop-2.3.0上运行成功
一个简单的MapReduce程序。Hadoop2.2.0上实测可用。
在Windows7 x64 + Eclipse + Hadoop 2.5.2搭建MapReduce开发环境,下载的文件中包括下载的文件包括:hadoop 2.5.2.tar.gz,hadoop-common-2.2.0-bin-master.zip,hadoop-eclipse-plugin-2.5.2.jar。应用这些软件的...
hadoop2.2.0 在window下进行MapReduce 测试时需要的工具,使用时需要修改 源码org.apache.hadoop.util.Shell.java 的277行fullName的路径如: String fullExeName = "d:/hadoop" + File.separator + executable; ...
基于Hadoop2.2.0的词频统计的例子。包含一个大概十万以上单词的测试数据文件。重写了Partitioner和Combiner,供学习之用。 访问博文 http://blog.csdn.net/zythy/article/details/17852579 以查看详细讲解。
而这次Hadoop在Mac上的安装费尽周折,并且遇到网上没有先例的问题(由于编译版本不同)、包括Hadoop2.2.0源码中的许多bug。 在此将我的安装过程记录下来,或许对后人有用。 环境: MacOS-10.14, java-1.7.0_80, cmake...
最大似然算法实现MapReduce 目录包含我们项目的主要输出,即用于估计隐藏...跑步分布式 EM 的当前实施必须在 Amazon ElasticMapreduce (EMR) 集群上运行,其下有一个 Amazon S3 分布式文件系统。 程序 jar、输入语料
完整的词频统计MapReduce版本。基于Hadoop2.2.0,包含一个十万单词左右的测试文件。请参照 http://blog.csdn.net/zythy/article/details/17888439 获取详细解说。
(问题已于 14 年 2 月 25 日解决),我想找出一种在 Hadoop 2.2.0 上使用 Mahout 0.8 协同过滤库运行用例的替代方法 在 Eclipse 和 Yarn 上运行 hadoop 程序 步骤: sbin/start_classicCF.sh 该脚本用于下载数据...
3,hadoop2.2.0:这里用于练习的是伪分布模式。4,完成内容:喜欢该商品的人还喜欢,相同购物喜好的好友推荐。1,通过sqoop从mysql中将“用户收藏商品”(这里用的是用户收藏商品信息表作为推荐系统业务上的依据,...
使用Hadoop进行Elastic MapReduce实施,以查找2006-2010年每年的前5个温度。 使用的数据集来自国家气象局。 该项目已在运行于Ubuntu 12.04 VM上的Hadoop 2.2.0上进行了设置和测试。 温度和风的最大值和最小值的输出...