目的
这篇文档的目的是帮助你快速完成在三台以上服务器搭建Hadoop应用平台。
先决条件
VirtualBox
虚拟机共3台
操作系统:Ubuntu 10.4
内存: 256M以上
机器名
|
IP
|
作用
|
master
|
10.9.9.100
|
NameNode、master、jobTracker
|
slave01
|
10.9.9.101
|
DataNode、slave、taskTracker
|
slave02
|
10.9.9.102
|
DataNode、slave、taskTracker
|
安装Hadoop集群前的准备工作
一、在每台机子上创建hadoop用户
$ group hadoop
$ useradd -g hadoop hadoop
$ passwd hadoop
当然也可以用图形界面中 系统设置-〉用户和组 添加。添加之后注销使用hadoop用户登录,接下来的配置都用hadoop用户操作
二、修改hosts,在三台机子配置如下host
sudo vi /etc/hosts
10.9.9.100 master
10.9.9.101 slave01
10.9.9.102 slave02
三、开启ssh服务
安装ssh服务 :sudo apt-get install openssh-server
(1)在
master
上实现无密码登录本机
$ ssh-keygen –t dsa
一路回车,
完成后会在/home/hadoop/.ssh下生成两个文件:id_dsa和id_dsa.pub。这两对是成对出现的。再把id_dsa.pub加到authorized_keys文件里。方法如下:进入/home/hadoop/.ssh目录:
$ cat id_dsa.pub >>
authorized_keys
完成后可以实现无密码登录本机:
$ ssh localhost
若无密码输入提示,则配置成功。
(2)实现
master
无密码登录其他slave01,
slave02
在master机子上把id_dsa.pub文件复制给其它两台子
scp /home/hadoop/.ssh hadoop@slave01:/home/hadoop/
scp /home/hadoop/.ssh hadoop@slave02:/home/hadoop/
测试ssh 无密码登录
$ ssh slave01
$ ssh slave02
安装
一、下载 jdk7 jdk-7-linux-x64.tar.gz
http://www.oracle.com/technetwork/java/javase/downloads/java-se-jdk-7-download-432154.html
$ sudo tar -zxvf jdk-7-linux-x64.tar.gz -C /usr/local/java/
$ sudo mv /usr/local/java/jdk1.7.0 /usr/local/java/jdk
二、下载 hadoop hadoop-0.21.0.tar.gz
http://www.apache.org/dyn/closer.cgi/hadoop/common/
解压重命名
$ sudo tar -zxvf
hadoop-0.21.0.tar.gz -C /usr/local/
$ sudo mv /usr/local/hadoop-0.21.0 /usr/local/hadoop
(2) 添加环境变量
$sudo vi /etc/profile
export HADOOP_HOME=/usr/local/hadoop
export JAVA_HOME=/usr/local/java/jdk
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin
注意:上面的路径要和你解压的路径相一致,以上的配置三台机子都要相同
配置hadoop
(1)建立目录
在master服务器上,建立目录 /data/hadoop/name、/data/hadoop/tmp
在slave01,slave02服务器上,建立目录 /data/hadoop/data01、/data/hadoop/data02、/data/hadoop/tmp
(2)建立无密码验证的ssh密钥及更改文件权限
(mster)
# chown hadoop:hadoop -R /usr/local/hadoop
# chown hadoop:hadoop -R /data/hadoop/name /data/hadoop/tmp
(
slave01、slave02
)
# chown hadoop:hadoop -R /usr/local/hadoop
# chown hadoop:hadoop -R /data/hadoop/data01 /data/hadoop/data02 /data/hadoop/tmp
(3)
在master上修改配置文件
,修改完成后,拷贝到slave01和slave02
,保证配置文件保持一致
要修改的文件有
{hadoop-install-dir}/conf/目录下的,
hadoop_env.sh
core-site.xml
hdfs-site.xml
mapred-site.xml
masters
slaves 六个文件
=======
hadoop_env.sh==========
配置Hadoop需要的环境变量,其中JAVA_HOME是必须设定的变量
。
export JAVA_HOME=/usr/java/jdk1.6.0
=======
core-site.xml==========
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/data/hadoop/tmp</value>
<description>A base for other temporary directories.</description>
</property>
<!-- file system properties -->
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
=======hdfs-site.xml=======
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/data/hadoop/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/data/hadoop/data01,/data/hadoop/data02</value>
</property>
</configuration>
================
mapred-site.xml
======================
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>master:9001</value>
</property>
</configuration>
===============masters=====================
master
===============
slaves=========================
slave01
slave02
运行hadoop
(1)格式化namenode
$ hadoop namenode -format
注意查看相关log是否报错,
如将/data/hadoop/name文件夹整个删除或者给文件加上777权限 然后再格,一定要成功才能继续
(2)启动hdfs服务
$ start-all.sh
(3)启动hdfs服务
$ stop-all.sh
(4)
查看结果
http://10.9.9.100:50070/
(5)其它
查看进程情况:
jps可以用来查看当前hadoop运行的进程情况。
hadoop dfsadmin –report可以用来查看当前hadoop的运行情况。
分享到:
相关推荐
Hadoop 分布式集群搭建 Hadoop由Apache基金会开发的分布式系统基础架构,是利用集群对大量数据进行分布式处理和存储的软件框架。用户可以轻松地在Hadoop集群上开发和运行处理海量数据的应用程序。Hadoop有高可靠,...
部署全分布模式Hadoop集群 实验报告一、实验目的 1. 熟练掌握 Linux 基本命令。 2. 掌握静态 IP 地址的配置、主机名和域名映射的修改。 3. 掌握 Linux 环境下 Java 的安装、环境变量的配置、Java 基本命令的使用。 ...
Hadoop完全分布式环境搭建文档,绝对原创,并且本人亲自验证并使用,图文并茂详细介绍了hadoop完全分布式环境搭建所有步骤,条例格式清楚,不能成功的,请给我留言!将给与在线支持!
基于OpenStack的Hadoop集群管理设计与实现,尹文涛,王洪波,大数据和云计算是当前信息技术领域的研究热点,全球每天产生大量的数据,为大数据的分析处理提供了机会;数据中心的出现和发展,
练习搭建伪分布Hadoop3.X集群,只用于刚刚开始学习搭建hadoo伪分布式集群的人群,帮助大家快速搭建Hadoop3.X伪分布式集群,快速入门大数据为日后的学习打下坚实的基础
NULL 博文链接:https://daxiangwanju.iteye.com/blog/1962175
(实测)针对初学者的大数据hadoop伪分布式平台搭建(包括测试环境),平台各框架组成部分均为反复核对保证兼容性。 注:本平台针以jdk8和mysql8作为基础,内含安装包的下载地址,如遇问题,可@我
hadoop3.x分布式平台搭建、HBase分布式集群安装与配置
为了搭建Hadoop平台学习,前期搭建dubbo+Zookeeper集群,这里有详细介绍zookeeeper伪集群和分布式集群, dubbo在tomcat下安装等过程。相关jdk、war、jar等也在百度云...
本文档详细介绍了如何用ZooKeeper和Hadoop、HBase搭建分布式大数据分析平台。
文档包括hadoop完全分布式、高可用集群搭建教程以及filnk,flume,hive,mysql,spark集群spark高可集群,sqoop的搭建教程以及需要的各种环境安装包以及要使用的相关软件。
规划Hadoop大数据平台集群 Hadoop集群的三种模式 单机模式 在单机上运行。 没有分布式文件系统,直接读写本地操作系统。 伪分布模式 在单机上运行。 使用分布式文件系统。 hadoop集群只有一个节点,因此hdfs的块复制...
Hadoop是一个可以搭建在廉价服务器上的分布式集群系统架构,它具有可用性高、容错性高和可扩展性高等优点。由于它提供了一个开放式的平台,用户可以在完全不了解底层实现细节的情形下,开发适合自身应用的分布式程序...
HADOOP分布式集群的平台搭建 B. HADOOP分布式文件系统HDFS的原理理解及使用 C. HADOOP分布式运算框架MAPREDUCE的原理理解及编程 D. Hive数据仓库工具的熟练应用 E. Flume、sqoop、oozie等辅助工具的熟练使用 F. ...
搭建步骤: 准备硬件环境:确保服务器具备足够的内存、存储和网络带宽等...分布式计算:Hadoop可以分布式地处理大规模计算任务,提高计算效率和可靠性。 数据备份和容灾:Hadoop可以作为数据备份和容灾的解决方案,
人工智能-hadoop
1、GradDesign_v2为数据获取及分析代码,需要在linux操作系统下搭建Hadoop分布式集群,并在Hadoop平台上运行。 2、CreatDB为数据库导入程序,需要将导入数据文件夹下的所有内容放在D盘中。 3、MyWeb是是网站设计...
基于Hadoop数据分析系统设计(需求分析).docx 随着云时代的来临,大数据也吸引越来越多的关注...本文将介绍Hadoop完全分布式集群的具体搭建过程与基于Hive的数据分析平台的设计与实现。 关键字 Hadoop,MapReduce,Hive
Hadoop 是 Apache 软件基金会旗下的一个开源分布式计算平台。...所以用户可以利用 Hadoop 轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。
Hadoop 是 Apache 软件基金会旗下的一个开源分布式计算平台。...所以用户可以利用 Hadoop 轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。