`
zhaohuafei
  • 浏览: 27042 次
文章分类
社区版块
存档分类
最新评论

Hadoop-2.2.0中文文档——Hadoop MapReduce 下一代 —配置一个单节点集群

 
阅读更多

Mapreduce 包

你需从发布页面获得MapReduce tar包。若不能,你要将源码打成tar包。

$ mvn clean install -DskipTests
$ cd hadoop-mapreduce-project
$ mvn clean install assembly:assembly -Pnative

注意:你需要安装有protoc 2.5.0。

忽略本地建立mapreduce,你可以在maven中省略-Pnative参数。tar包应该在target/directory。

配置环境

假设你已经安装hadoop-common/hadoop-hdfs,并且输出了$HADOOP_COMMON_HOME/$HADOOP_HDFS_HOME,解压hadoop mapreduce 包,配置环境变量$HADOOP_MAPRED_HOME到要安装的目录。$HADOOP_YARN_HOME的配置和$HADOOP_MAPRED_HOME一样.

注意:下面的操作假设你已经运行了hdfs。

设置配置信息

要启动ResourceManager and NodeManager, 你必须升级配置。假设你的 $HADOOP_CONF_DIR是配置目录,并且已经安装了HDFS和core-site.xml。还有2个配置文件你必须设置mapred-site.xmlyarn-site.xml.

设置mapred-site.xml

添加下面的配置到你的mapred-site.xml.

<property>
    <name>mapreduce.cluster.temp.dir</name>
    <value></value>
    <description>No description</description>
    <final>true</final>
  </property>

  <property>
    <name>mapreduce.cluster.local.dir</name>
    <value></value>
    <description>No description</description>
    <final>true</final>
  </property>

设置yarn-site.xml

添加下面的配置到你的yarn-site.xml.

<property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>host:port</value>
    <description>host is the hostname of the resource manager and 
    port is the port on which the NodeManagers contact the Resource Manager.
    </description>
  </property>

  <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>host:port</value>
    <description>host is the hostname of the resourcemanager and port is the port
    on which the Applications in the cluster talk to the Resource Manager.
    </description>
  </property>

  <property>
    <name>yarn.resourcemanager.scheduler.class</name>
    <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
    <description>In case you do not want to use the default scheduler</description>
  </property>

  <property>
    <name>yarn.resourcemanager.address</name>
    <value>host:port</value>
    <description>the host is the hostname of the ResourceManager and the port is the port on
    which the clients can talk to the Resource Manager. </description>
  </property>

  <property>
    <name>yarn.nodemanager.local-dirs</name>
    <value></value>
    <description>the local directories used by the nodemanager</description>
  </property>

  <property>
    <name>yarn.nodemanager.address</name>
    <value>0.0.0.0:port</value>
    <description>the nodemanagers bind to this port</description>
  </property>  

  <property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>10240</value>
    <description>the amount of memory on the NodeManager in GB</description>
  </property>
 
  <property>
    <name>yarn.nodemanager.remote-app-log-dir</name>
    <value>/app-logs</value>
    <description>directory on hdfs where the application logs are moved to </description>
  </property>

   <property>
    <name>yarn.nodemanager.log-dirs</name>
    <value></value>
    <description>the directories used by Nodemanagers as log directories</description>
  </property>

  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    <description>shuffle service that needs to be set for Map Reduce to run </description>
  </property>


设置capacity-scheduler.xml

确保你放置根队列到capacity-scheduler.xml.

 <property>
    <name>yarn.scheduler.capacity.root.queues</name>
    <value>unfunded,default</value>
  </property>
  
  <property>
    <name>yarn.scheduler.capacity.root.capacity</name>
    <value>100</value>
  </property>
  
  <property>
    <name>yarn.scheduler.capacity.root.unfunded.capacity</name>
    <value>50</value>
  </property>
  
  <property>
    <name>yarn.scheduler.capacity.root.default.capacity</name>
    <value>50</value>
  </property>

运行守护进程

假设环境变量$HADOOP_COMMON_HOME,$HADOOP_HDFS_HOME,$HADOO_MAPRED_HOME,$HADOOP_YARN_HOME,$JAVA_HOME$HADOOP_CONF_DIR已经设置正确。$$YARN_CONF_DIR 的设置同 $HADOOP_CONF_DIR。

运行ResourceManager 和 NodeManager 如下:

$ cd $HADOOP_MAPRED_HOME
$ sbin/yarn-daemon.sh start resourcemanager
$ sbin/yarn-daemon.sh start nodemanager

你应该启动和运行。你可以运行randomwriter如下:

$ $HADOOP_COMMON_HOME/bin/hadoop jar hadoop-examples.jar randomwriter out

祝你好运。

分享到:
评论

相关推荐

    hadoop-2.2.0-x64.tar.gz part3

    自己编译的64bithadoop-2.2.0版本 [INFO] Reactor Summary: ...This command was run using /home/hadoop/Desktop/hadoop-2.2.0-src/hadoop-dist/target/hadoop-2.2.0/share/hadoop/common/hadoop-common-2.2.0.jar

    hadoop-2.2.0-x64.tar.gz part2

    hadoop-2.2.0 64bit下载,自己编译的 [INFO] Reactor Summary: [INFO] [INFO] Apache Hadoop Main ................................ SUCCESS [1.834s] [INFO] Apache Hadoop Project POM ...........................

    hadoop-2.2.0-src.tar

    hadoop源码2.2.0 Apache Hadoop 2.2.0 is the GA release of Apache Hadoop 2.x. Users are encouraged to immediately move to 2.2.0 since this release is significantly more stable and is guaranteed to ...

    hadoop-2.2.0-x64.tar.gz part1

    hadoop-2.2.0, 64 bit,下载 自己编译的64bit的hadoop-2.2.0,自己lab安装使用。 [INFO] Reactor Summary: [INFO] [INFO] Apache Hadoop Main ................................ SUCCESS [1.834s] [INFO] Apache ...

    spark-2.2.0-bin-hadoop2.7.zip

    Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,...

    hadoop-eclipse-plugin-2.2.0.jar

    在eclipse中集成hadoop2控件,能够方便编写mapreduce等程序。在hadoop-2.3.0上运行成功

    简单的MapReduce程序(Hadoop2.2.0)

    一个简单的MapReduce程序。Hadoop2.2.0上实测可用。

    Windows7 x64+Eclipse+Hadoop 2.5.2搭建MapReduce开发集群相关工具下载

    在Windows7 x64 + Eclipse + Hadoop 2.5.2搭建MapReduce开发环境,下载的文件中包括下载的文件包括:hadoop 2.5.2.tar.gz,hadoop-common-2.2.0-bin-master.zip,hadoop-eclipse-plugin-2.5.2.jar。应用这些软件的...

    hadoop2.2.0 winutils.exe

    hadoop2.2.0 在window下进行MapReduce 测试时需要的工具,使用时需要修改 源码org.apache.hadoop.util.Shell.java 的277行fullName的路径如: String fullExeName = "d:/hadoop" + File.separator + executable; ...

    Hadoop 2.2.0 词频统计例子

    基于Hadoop2.2.0的词频统计的例子。包含一个大概十万以上单词的测试数据文件。重写了Partitioner和Combiner,供学习之用。 访问博文 http://blog.csdn.net/zythy/article/details/17852579 以查看详细讲解。

    java7源码-Compile-Hadoop2.2.0-on-MacOS:也许是第一个(或最笨的)在MacOSMojave上编译Hadoop的

    而这次Hadoop在Mac上的安装费尽周折,并且遇到网上没有先例的问题(由于编译版本不同)、包括Hadoop2.2.0源码中的许多bug。 在此将我的安装过程记录下来,或许对后人有用。 环境: MacOS-10.14, java-1.7.0_80, cmake...

    em-mapred:最大似然算法及其分布式实现

    最大似然算法实现MapReduce 目录包含我们项目的主要输出,即用于估计隐藏...跑步分布式 EM 的当前实施必须在 Amazon ElasticMapreduce (EMR) 集群上运行,其下有一个 Amazon S3 分布式文件系统。 程序 jar、输入语料

    Hadoop词频统计(完整版)

    完整的词频统计MapReduce版本。基于Hadoop2.2.0,包含一个十万单词左右的测试文件。请参照 http://blog.csdn.net/zythy/article/details/17888439 获取详细解说。

    MahoutHadoopUseCase:电影推荐(1. 下载并预处理数据集;2. 将数据放入 hadoop HDFS;3. 在 Hadoop 上使用 MapReduce 运行 Mahout 协作过滤 4. 获取推荐的前 k 部电影列表)

    (问题已于 14 年 2 月 25 日解决),我想找出一种在 Hadoop 2.2.0 上使用 Mahout 0.8 协同过滤库运行用例的替代方法 在 Eclipse 和 Yarn 上运行 hadoop 程序 步骤: sbin/start_classicCF.sh 该脚本用于下载数据...

    hadoop实现购物商城推荐系统

    3,hadoop2.2.0:这里用于练习的是伪分布模式。4,完成内容:喜欢该商品的人还喜欢,相同购物喜好的好友推荐。1,通过sqoop从mysql中将“用户收藏商品”(这里用的是用户收藏商品信息表作为推荐系统业务上的依据,...

    ElasticMapReduce:使用HadoopElastic MapReduce实现

    使用Hadoop进行Elastic MapReduce实施,以查找2006-2010年每年的前5个温度。 使用的数据集来自国家气象局。 该项目已在运行于Ubuntu 12.04 VM上的Hadoop 2.2.0上进行了设置和测试。 温度和风的最大值和最小值的输出...

Global site tag (gtag.js) - Google Analytics