`

Hadoop集群(CDH4)实践之 (1) Hadoop(HDFS)搭建

 
阅读更多

OS: CentOS 6.4 x86_64
Servers:
hadoop-master: 172.17.20.230 内存10G
- namenode

hadoop- secondarynamenode: 172.17.20.234 内存10G
- secondarybackupnamenode,jobtracker

hadoop-node-1: 172.17.20.231 内存10G
- datanode,tasktracker

hadoop-node-2: 172.17.20.232 内存10G
- datanode,tasktracker

hadoop-node-3: 172.17.20.233 内存10G
- datanode,tasktracker

对以上角色做一些简单的介绍:
namenode - 整个HDFS的命名空间管理服务
secondarynamenode - 可以看做是namenode的冗余服务
jobtracker - 并行计算的job管理服务
datanode - HDFS的节点服务
tasktracker - 并行计算的job执行服务

本文定义的规范,避免在配置多台服务器上产生理解上的混乱:
所有直接以 $ 开头,没有跟随主机名的命令,都代表需要在所有的服务器上执行,除非后面有单独的//开头或在标题说明。

1. 选择最好的安装包
为了更方便和更规范的部署Hadoop集群,我们采用Cloudera的集成包。
因为Cloudera对Hadoop相关的系统做了很多优化,避免了很多因各个系统间版本不符产生的很多Bug。
这也是很多资深Hadoop管理员所推荐的。
https://ccp.cloudera.com/display/DOC/Documentation/

2. 安装Java环境
由于整个Hadoop项目主要是通过Java开发完成的,因此需要JVM的支持。
登陆www.oracle.com(需要创建一个ID),从以下地址下载一个64位的JDK,如jdk-7u45-linux-x64.rpm

http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html

$ sudo rpm -ivh jdk-7u45-linux-x64.rpm
$ sudo vim /etc/profile

1 export JAVA_HOME=/usr/java/jdk1.7.0_45
2 export JRE_HOME=$JAVA_HOME/jre
3 export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
4 export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

$ source /etc/profile

3. 配置Hadoop安装源
$ sudo rpm --import http://archive.cloudera.com/cdh4/redhat/5/x86_64/cdh/RPM-GPG-KEY-cloudera
$ cd /etc/yum.repos.d/
$ sudo wget http://archive.cloudera.com/cdh4/redhat/6/x86_64/cdh/cloudera-cdh4.repo

4. 安装Hadoop相关套件,选择MRv1的框架支持
$ sudo yum install hadoop-hdfs-namenode //仅在hadoop-master上安装

 

$ sudo yum install hadoop-hdfs-secondarynamenode //仅在hadoop-secondary上安装
$ sudo yum install hadoop-0.20-mapreduce-jobtracker //仅在hadoop-secondary上安装

 

$ sudo yum install hadoop-hdfs-datanode //仅在hadoop-node上安装
$ sudo yum install hadoop-0.20-mapreduce-tasktracker //仅在hadoop-node上安装

 

$ sudo yum install hadoop-client   //有有节点上安装

 

5. 创建Hadoop配置文件
$ sudo cp -r /etc/hadoop/conf.dist /etc/hadoop/conf.my_cluster

6. 激活新的配置文件
$ sudo alternatives --verbose --install /etc/hadoop/conf hadoop-conf /etc/hadoop/conf.my_cluster 50
$ sudo alternatives --set hadoop-conf /etc/hadoop/conf.my_cluster
$ cd /etc/hadoop/conf

7. 添加hosts记录并修改对应的主机名
$ sudo vim /etc/hosts

1 127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
2 ::1         localhost localhost.localdomain localhost6 localhost6.localdomain6
3  
4 172.17.20.230 hadoop-master
5 172.17.20.234 hadoop-secondary
6 172.17.20.231 hadoop-node-1
   

8. 安装LZO支持
$ cd /etc/yum.repos.d
$ sudo wget http://archive.cloudera.com/gplextras/redhat/6/x86_64/gplextras/cloudera-gplextras4.repo
$ sudo yum install hadoop-lzo-cdh4

9. 配置hadoop/conf下的文件
$ sudo vim /etc/hadoop/conf/masters

1 hadoop-master

$ sudo vim /etc/hadoop/conf/slaves

1 hadoop-node-1
2 hadoop-node-2
3 hadoop-node-3
分享到:
评论

相关推荐

    CDH-5.10.2集群的搭建.pdf

    1、集群规模很庞大时搭建Hadoop集群复杂度越来越高,工作量很大 2、规模很大的集群下升级Hadoop版本很费时费力 3、需要自己保证版本兼容,比如升级Hadoop版本后需要自己保证与Hive、Hbase等的兼容 4、安全性很低 ...

    hadoop集群+CDH集群8个核心配置文件

    hadoop+CHD 的8个核心配置文件,hdfs/yarn/JobHistory.

    基于cloudera搭建hadoop集群

    11. 设置hadoop存储目录 11 12. 配置cm源文件 11 五. 安装 12 1. 安装cm 12 2. 安装cdh 22 六. 卸载 33 七. 参数调整 33 1. Mapreduce 33 2. Hdfs 34 3. Hbase 34 4. hive 35 5. Oozie 35 八. 常用命令 37 1. ...

    Hadoop CDH5.5.0 配置(Hdfs/Yarn HA)

    之前一直在网上找社区版hadoop的配置,发现CDH安装直接界面搞定,自动生成配置。供检查学习。

    高可用性的HDFS:Hadoop分布式文件系统深度实践

    8.2 CDH4B1版本HDFS集群配置 8.2.1 虚拟机安装 8.2.2 nn1配置 8.2.3 dn1~dn3配置 8.2.4 HDFS集群构建 8.3 HA NameNode配置 8.3.1 nn1配置 8.3.2 其他节点配置 8.4 HA NameNode使用 8.4.1 启动HA HDFS集群 8.4.2 第1...

    hadoop-2.6.0-cdh5.14.0编译的bin文件 hadoop.dll winutils.exe

    hadoop.dll winutils.exe hadoop hadoop.cmd hadoop.exp hadoop.lib hadoop.pdb hdfs hdfs.cmd hdfs.dll hdfs.lib hdfs.pdb libwinutils.lib mapred mapred.cmd rcc winutils.pdb yarn yarn.cmd

    初学大数据,手动搭建Hadoop集群环境完整学习文档

    初学大数据,如何手动搭建一套集群是很有必要的一件事,因为使用CDH等一键搭建后,不知内部的原理,无法真正的理解其大数据集群的搭建原理,此文档刚好给大家把手动搭建集群的步骤列举出来了

    hadoop集群参考文档

    简单描述hadoop的集群配置,在linux下使用虚拟机配置

    Cloudera Hadoop 5&Hadoop高阶管理及调优课程

    1、Hadoop2.0高阶运维,包括Hadoop节点增加删除、HDFS和YARN的HA实现, HDFS Federation实现等 2、搭建本地Yum部署CDH5的重要组件和优化配置 3、Impala、Oozie和Hue的部署、使用操作及调优 4、Hadoop安全认证及授权...

    hadoop-CDH4.6-install.docx

    hadoop cdh4.6详细安装文档。安装的组件包括:hdfs,hbase,zookeeper,zookeeper,lily-hbase,hive等等

    CDH6安装包、大数据平台管理工具、大数据、hadoop、CDH6.2

    CDH6全套资源安装包、CDH6、大数据平台、hadoop、spark、kafka、大数据技术、数据仓库、hive、hdfs、大数据技术架构、数据平台管理、开源大数据平台、大数据安装包、CDH安装教程

    CDH集群部署手册(For CDH5)

    详细描述CDH集群部署 1规划服务器 2 2安装和配置Mysql数据库 4 3离线安装Cloudera Manager5和CDH5 7 3.1创建本地yum软件源 7 3.2使用本地类库安装CM 10 3.3 设置cloudera manager使用的mysql数据库 10 3.4 使用本地...

    CM_CDH大数据集群搭建总结.zip

    集群运维搭建,搭建hdfs,hadoop,hbase,spark,oozie,sqoop,MR,zookeeper,hive

    CDH5.9.0节点删除下线

    CDH5.9.0集群的节点删除,步骤详细,并附有步骤的截图。

    Hadoop-2.0.0-cdh4.3.0安装手册.

    1 环境准备 3 1.1 主机 3 1.2 用户 3 1.3 程序包 4 1.4 hosts 4 1.5 SSH互信 4 1.6 基础环境 7 2 程序安装 7 2.1 zookeeper 7 2.1.1 第一步:解压 7 2.1.2 第二步:修改zoo.cfg 7 2.1.3 第三步:创建myid 9 2.1.4 第...

    hadoop-2.6.0-cdh5 编译的bin文件 hadoop.dll winutils.exe

    bin目录 hadoop.dll winutils.exe hadoop hadoop.cmd hadoop.exp hadoop.lib hadoop.pdb hdfs hdfs.cmd hdfs.dll hdfs.lib hdfs.pdb libwinutils.lib mapred mapred.cmd rcc winutils.pdb yarn yarn.cmd 亲测可用,...

    HDFS文件系统JAVA api访问接口(基于hadoop大数据平台)

    在搭建完hadoop大数据系统(CDH5.16.1)后,如何访问hdfs文件系统上的数据呢?那当然是通过构建maven项目 使用java api接口进行文件了。为此,特别进行了hdfs文件系统java api访问的整理。

    hadoop安装

    <value>hdfs://hadoop1:9000 设置datanode节点数为2 [root@a1 conf]# vi hdfs-site.xml 添加 <name>dfs.replication <value>2 设置jobtracker端口 [root@a1 conf]# vim mapred-site.xml <name>mapred.job...

    prometheus grafana 基于开源监控apache Hadoop模板大全

    jmx prometheus grafana 监控开源hadoop各个组件模板。 Hadoop、Zookeeper、HBase等包含12个json模板 导入即可使用,不许做任何修改。

    14、HDFS 透明加密KMS

    14、HDFS 透明加密KMS 网址:https://blog.csdn.net/chenwewi520feng/article/details/130429278 本文旨在简单介绍hdfs的透明加密作用及其使用。 前提依赖:hadoop环境部署好且可用。部署文章可参考本专栏相关文章。...

Global site tag (gtag.js) - Google Analytics