`

Hadoop 2.x单节点部署学习。

 
阅读更多

 

 

1 环境 hadoop-2.5.2  ubuntu 64位服务器  jdk1.7.0_72(tar文件,直接解压到usr/local ,配置环境变量)

2 所需要的软件,不同linux安装软件方式可能不一样 :

  $ sudo apt-get install ssh

  $ sudo apt-get install rsync

3 下载hadoop:http://www.apache.org/dyn/closer.cgi/hadoop/common/

4 解压hadoop 到要安装的目录

5 编辑hadoop所需要环境 etc/hadoop/hadoop-env.sh

  其中jdk环境设置成自己安装的绝对路径,不能用环境变量的代替

6  执行 bin/hadoop  ,会打印一些hadoop的一些执行参数信息,安装完成 

 

hadoop三种模式:1 本地模式  2 伪分布模式  3 分布模式 

一、hadoop模式就是本地模式,作为java的一个进程

   在/web/hadoop 这个目录中执行 

  $ mkdir input

  $ cp etc/hadoop/*.xml input

  $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep input output 'dfs[a-z.]+'

  $ cat output/*

二、伪分布模式

  hadoop每个进程运行在单独的java线程中  

  1)配置 etc/hadoop/core-site.xml 

   

<configuration>
   <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
   </property>

 <property>
    <name>hadoop.tmp.dir</name>
    <value>/web/hadoop-2.5.2/tmp/hadoop-${user.name}</value>
    <description>临时文件的目录,根据情况修改.</description>
 </property>
</configuration>

 

 

   2)配置etc/hadoop/hdfs-site.xml 

  

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>
</configuration>

 

 

   3)检查ssh是否可以无密码登录 到本机

$ ssh localhost 

如果需要输入密码则需要设置无密码登录 

$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

$ export HADOOP\_PREFIX=/usr/local/hadoop

    4)格式化文件系统,系统会清理临时文件目录,并重新生成一些目录 

      bin/hdfs namenode -format 

      或 bin/hadoop namenode -format  (配置环境变量以后可以直接用hadoop来执行命令不使用目录)

     格式化过程会创建hadoop.tmp.dir 指定的数据文件目录,并且会产生管理datanode元数据的文件 

    5) 开启名称节点线程和数据节点进程

      $ sbin/start-dfs.sh

     

      启动过程看log是否有错误: $HADOOP_HOME/logs

    6) 将地址换成hadoop的ip地址然后在浏览器中访问下面地址,可以浏览文件系统的一些信息:

     集群监控:    http://localhost:50070/

      mapreduce监控:   http://cloud1:8088/ 

    7) 创建mapreduce所需要的目录 

$ bin/hdfs dfs -mkdir /user

$ bin/hdfs dfs -mkdir /user/root(用户名)

拷贝目录文件到文件系统中 

$ bin/hdfs dfs -put etc/hadoop input

运行mapreduce例子,注意修改jar版本

        $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.1.jar grep input output 'dfs[a-z.]+'

检查输出文件

$ bin/hdfs dfs -cat output/*

     8)停止dfs进程  $ sbin/stop-dfs.sh 

 

三、伪分布模式下在YARN中运行MapReduce job 

  1)etc/hadoop/mapred-site.xml 

  

<configuration>
   <property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
   </property>
</configuration>

 

</configuration>

   2)etc/hadoop/yarn-site.xml ,resourceManager和NodeManager的配置

       Map程序产生的数据以shuffle形式传给reduce  

       resourceManager访问地址

       

<configuration>

<!-- Site specific YARN configuration properties -->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
      <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>cloud1</value>
    </property>
 
</configuration>

 

 

   3)启动ResourceManager 和NodeManager 线程

    $ sbin/start-yarn.sh

 

   4)执行例子程序 

      hadoop jar hadoop-mapreduce-examples-2.4.1.jar wordcount /wordcount/input /wordcount/output 

    

 

 

环境变量设置:

  

export HADOOP_PREFIX=/web/hadoop-2.5.2
export PATH=$PATH:$HADOOP_PREFIX/bin
export PATH=$PATH:$HADOOP_PREFIX/sbin
export HADOOP_MAPRED_HOMD=${HADOOP_PREFIX}
export HADOOP_COMMON_HOME=${HADOOP_PREFIX}
export HADOOP_HDFS_HOME=${HADOOP_PREFIX}
export YARN_HOME=${HADOOP_PREFIX}
export HADOOP_CONF_DIR=${HADOOP_PREFIX}/etc/hadoop
export HDFS_CONF_DIR=${HADOOP_PREFIX}/etc/hadoop
export YARN_CONF_DIR=${HADOOP_PREFIX}/etc/hadoop

 

 

 

查看hdfs中所有的目录: bin/hdfs dfs -lsr /

运行dfs和yarn后, 执行jdk下面的jps命令,查看java线程会有以下线程,则运行成功 

  

7313 SecondaryNameNode
7570 NodeManager
7467 ResourceManager
7129 DataNode
7029 NameNode
7675 Jps

 

 

来源: 

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/SingleCluster.html#Standalone_Operation

 

 

 

分享到:
评论

相关推荐

    Docker Swarm部署Hadoop3.x + HBase2.x真正分布式集群环境配置参考资源

    采用Docker Swarm集群方式, 部署Hadoop3.x + HBase2.x的真正分布式集群环境,趟坑无数, 配置文件已整理好,内置Dockerfile构建文件、docker-compose脚本文件、hbase安装包、hadoop配置文件等。可以根据生产环境, ...

    Hadoop快速部署工具 EasyHadoop.zip

    EasyHadoop 是一个Hadoop一键安装系统,方便大家更容易安装部署Hadoop软件。 EasyHadoop 由前暴风影音数据团队修湘调研,向磊编写,以GPL协议进行开源 开放此管理部署系统方便大家安装使用,以此和行业共同学习进步。 ...

    新版Hadoop视频教程 段海涛老师Hadoop八天完全攻克Hadoop视频教程 Hadoop开发

    05-hadoop分布式集群HA模式部署.avi 06-hdfs--HA测试.avi 07-hdfs--动态增加节点和副本数量管理.avi 08-HA的java api访问要点.avi 09-hive入门.avi 第六天 hbase hive 01-复习ha相关.avi 02-hive的元数据库...

    hadoop自动化运维工具Ambari应用实践

    本课程主要讲解Ambari工具的使用,主要涉及Ambari的安装部署、在Ambari下自动化部署一套hadoop3.x集群、在Ambari下扩容hadoop集群节点、在Ambari下添加Hive、hbase、spark等服务,以及如何实现hadoop集群中服务的...

    mapr-puppet:用于部署 MapR Hadoop 发行版的 Puppet 模块,版本 4.x+

    用于部署 MapR Hadoop 发行版的 Puppet 模块。 去做 大多数指令适用于 CentOS,但它们并未在其他目标系统(如 MapR 支持的 Ubuntu 和 SUSE)上进行测试。 确保 ntp 已安装并正在运行。 配置 mysql 和指标数据库。 ...

    2.1 hadoop+hbase部署和测试1

    第一章 规划1.1 版本机器:Vsphere 虚拟机操作系统:CentOS 6.6 x64,最小化安装内存:4G1.2 模块分布模块节点服务器hadoop01

    大数据平台常见面试题.pdf

    a)SecondaryNameNode b)DataNode c)TaskTracker d)Jobtracker 注:haoop1.X 分析: hadoop 的集群是基于 master/slave 模式,namenode 和 jobtracker 属于 master,datanode 和 tasktracker属于 slave,master 只 ...

    安全大数据分析框架OpenSOC.zip

    可在企业内部部署或者云端部署具有集中化的管理流程、人员和数据当前,OpenSOC 运行条件包括:两个网卡(建议使用Napatech的NT20E2-CAP网卡)Apache Flume 1.4.0 版本及以上Apache Kafka 0.8.1 版本及以上Apache ...

    Hadoop集群配置(最全面总结)

    确保在你集群中的每个节点上都安装了所有必需软件:sun-JDK,ssh,HadoopJavaTM1.5.x,必须安装,建议选择Sun公司发行的Java版本。ssh必须安装并且保证sshd一直运行,以便用Hadoop脚本管理远端Hadoop守护进程。操作...

    大数据开发笔试.docx

    答:Hadoop2相比较于Hadoop1.x来说,HDFS的架构与MapReduce的都有较大的变化,且速度上和可用性上都有了很大的提高,Hadoop2中有两个重要的变更:首先HDFS的NameNodes可以以集群的方式布署,增强了NameNodes的水平...

    2017最新大数据架构师精英课程

    本资源为大数据基础到中高级教学资源,适合稍微有点大数据或者java基础的人群学习,资源过大,上传乃是下载链接,不多说,上目录: 1_java基础2 l3 a2 a$ t7 J2 b+ `- p 2_java引入ide-eclipse 3_java基础知识-循环...

    大数据开源框架集锦.pdf

    可视化的UI界⾯中⽅便地管理 配置和监控Hadoop以及其它所有相关组件 简单来说将⼗⼏个hadoop开源项⽬集成在⼀起 HDP 基于hadoop⽣态系统开源组件构建的⼤数据分析平台 2 集群管理与监控 Cloudera Manager ⽤于部署和...

    neo4j-mazerunner:Mazerunner扩展了Neo4j图形数据库,以使用HDFS和Apache Spark大规模运行计划的大数据图形计算算法

    Neo4j的图形分析 该docker映像将高性能的图形分析功能添加到。 该映像使用部署了一个容器,并使用对从Ne​​o4j导出的... Hadoop HDFS (sequenceiq / hadoop-docker:2.4.1) Neo4j图形数据库(kbastani / docker-n

Global site tag (gtag.js) - Google Analytics