网上很多hadoop集群搭建的文章,我这里只写下hdfs,不写mapreduce那块了。主要用来自己记得。
hadoop版本,我用的是比较新的2.3.0。
集群环境
mater 10.19.70.114
slave1 10.19.71.144
slave2 10.19.70.145
系统 ubuntu。windows用户不好意思,已经很久不怎么用windows了。
解压hadoop后,添加配置项$HADOOP_HOME到你解压的目录的hadoop下面。比如我的~/hadoop-2.3.0。至于这个配置项有没有用,我确实不知道。
添加JAVA_HOME,好吧,我试了用配置项,死活不行。好吧,我不知道网上那些是怎么信誓旦旦的成功的,可能是版本问题,我后来改了 $HADOOP_HOME/etc/hadoop-env.sh脚本,在里面加了JAVA_HOME配置。
注意$HADOOP_HOME/etc/hadoop这个目录,后面基本上所有的配置文件都在这里改,可能和老版本位置不太一样。
添加ssh免登权限。这个很多人都只是说配置,没说为什么要配置。其实说白了,集群么,你如果在master启动整个集群时候,master会根据配置,去找所有slave机器,然后通过ssh去启动slave上面的启动脚本。问题来了,他是用什么账号去ssh的,说实话我没搞清楚,我估计就是用你现在master上的那个账号,比如我登陆master机器的账号是hadoop,估计他就直接ssh hadoop@master了。所以你最好在整个集群所有机器上配置相同名字的账号,至于密码,随便吧,这个大家应该知道的。
另外一个,没有必要配置那么多免登,如果你是在master机器上启动集群,那就让master免登所有的slave。如果你在slave1上启动所有集群,那就让slave1免登整个集群其它机器。这个不难理解吧,至于免登,随便找找吧,到处都有,记得别弄反了,我经常弄反。
好关键的hadoop配置,记得我的版本是2.3.0,配置文件和老版本可能不太一样。另外这里只说hdfs,所以我没改map reduce配置,我也不会去启动map reduce的相关东西,东西一点一点来。
到$HADOOP/etc/hadoop下面找到一个core-site.xml。
其中将master机器改成
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://0.0.0.0:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/hadoop/tmp</value>
</property>
</configuration>
所有的slave改成
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master-hadoop:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/hadoop/tmp</value>
</property>
</configuration>
在所有的slave机器上,添加host绑定 masterIP master-hadoop
大家可能看到master配置fs.defaultFS和slave不太一样,我用的是0.0.0.0,知道网络的朋友,你们懂得,我就不多做解释了。我一开始没注意,到后来发现slave死活链接不到master上去,启动时候是不会报错啦,但一旦你想操作datanode时候,你懂得,直接报错是没有datanode.原因就是没连上。
最后改下hdfs-site.xml,不管master还是slave都一样。
<configuration>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.namenode.data.dir</name>
<value>file:/home/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.replication</name> #数据副本数量,默认3,我们是两台设置2
<value>2</value>
</property>
</configuration>
注意,我有2台slave所以我的dfs.replication配置是2。
最后启动,好吧,我只配置了hdfs,所以我启动的如下:
$HADOOP_HOME/sbin/start-dfs.sh。然后我只配置master免登slave,所以我只能在master上启动,你们要是不嫌麻烦,所以机器俩俩之间都配置了免登,那就随便哪台都可以启动。
相关推荐
python 零基础学习篇-04.HDFS集群搭建--服务器-网络配置准备.mp4
HDFS能 够提供对数据的可扩展访问,通过简单地往集群里添加节点就可以解决大量客户端同时访问的问题。HDFS支持传统的层次文件组织结构,同现 有的一些文件系 统类似,如可以对文件进行创建、删除、重命名等操作。
搭建手工切换HA的HDFS集群,学习大数据hadoop搭建环境的可以看下,通俗易懂
搭建自动切换HA的HDFS集群,学习大数据的同学看到这个学着搭建
HIVE的安装及使用@[周小龙]hive其实就是一个客户端工具,根据sql语义转化为相应的mapreduce,跑在hdfs集群上面,返回结果在返回给hive,这篇操作手册是在HDFS集群搭建成功的基础上而写,所有前提是你已经有HDFS集群,此...
Hadoop 2.6.4 呕心沥血的笔记,HDFS集群及Yarn的搭建,按照我的笔记一步一步的执行,可以很快的搭建出来大数据平台,适合初接触的同学们奥。。。。。
在虚拟机上面搭建hdfs 集群亲测可用 记得 修改ip地址就行
3. hadoop-HDFS集群搭建-伪分布式模式 4. hadoop-HDFS集群搭建-HA模式概念 5. hadoop-HDFS集群搭建-HA模式验证 6. hadoop-HDFS权限、企业级搭建、idea+maven开发HDFS 7. hadoop-MapReduce原理精讲、轻松入门 8. ...
从零开始一步步介绍如何搭建Hadoop集群
Hadoop 分布式集群搭建 Hadoop由Apache基金会开发的分布式系统基础架构,是利用集群对大量数据进行分布式处理和存储的软件框架。用户可以轻松地在Hadoop集群上开发和运行处理海量数据的应用程序。Hadoop有高可靠,...
搭建hadoop,并配置环境,适合大众学习hadoop的,简单明了
hadoop HA 搭建 包含 hdfs HA 集群搭建 以及yarn HA 集群搭建 适用于hadoop所有版本
hbase-2.1.3-bin.tar.gz,hadoop-3.1.2.tar.gz,hadoop-2.7.4.tar.gz,flink-1.7.2-bin-hadoop27-scala_2.11.tgz,apache-hive-3.1.1-bin.tar.gz,apache-hive-2.3.5-bin.tar.gz,以及一些推荐的集群搭建配置文件,...
采用虚拟机的方式搭建一个具有3个DataNode节点的HDFS集群,将搭建过程记录在实验报告中。采用虚拟机的方式,先配置好Hadoop的主节点,然后通过克隆的方式创建Slave节点,实现3节点的HDFS集群 任务二: 实验一:使用...
hadoop集群搭建步骤 集群规划 安装步骤:安装配置zooekeeper集群、安装配置hadoop集群、验证HDFS HA
11.hbase集群搭建--及其各种机制的观察--hdfs中的目录--zookeeper中的状态数据.mp4
hadoop伪集群搭建及eclipse插件配置,主要介绍伪集群下配置文件的配置及eclipse插件配置。
目录一些介绍Hadoop 2和Hadoop 3的端口区别Hadoop 3 HDFS集群架构我的集群规划1.安装JDK2.配置Hadoop2.1部署及配置2.2 将配置复制到其他服务器2.3配置下hadoop的环境变量,方便输入命令2.4格式化3.启动4.打开浏览器...
⼤数据集群搭建 ⼤数据集群搭建 1、virtualbox 1、关闭虚拟机选择第⼀个休眠,会记录各种进程的状态。如果直接关掉虚拟机会关闭各种进程,导致环境崩溃。 2、Centos7 1、修改⽹络 ⽹卡桥接,配置主机和虚拟机相互...
本文通过12个步骤实现Hadoop集群的完全分布式搭建 刚刚入门,如有错误请指出 文章目录1. 服务器准备2. 网络环境准备3. 服务器系统设置4. JDK环境安装5. Hadoop安装6. Hadoop文件配置:hadoop-env.sh(hadoop运行环境...