`
韩悠悠
  • 浏览: 827970 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

hadoop学习3---hadoop集群

 
阅读更多
1、hadoop简介
    Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop
分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google
MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的
分布式基础架构。
    对于Hadoop的集群来讲,可以分成两大类角色:Master和Salve。一个HDFS集群是
由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系
统的命名空间和客户端对文件系统的访问操作;集群中的DataNode管理存储的数据。
MapReduce框架是由一个单独运行在主节点上的JobTracker 和运行在每个集群从节点的
TaskTracker共同组成的。主节点负责调度构成一个作业的所有任务,这些任务分布在不同
的从节点上。主节点监控它们的执行情况,并且重新执行之前的失败任务;从节点仅负责由
主节点指派的任务。当一个Job被提交时,JobTracker接收到提交作业和配置信息之后,就
会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行。
     从上面的介绍可以看出,HDFS和MapReduce共同组成了Hadoop分布式系统体系结构
的核心。HDFS在集群上实现分布式文件系统,MapReduce在集群上实现了分布式计算和
任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,MapReduce
在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,
完成了Hadoop分布式集群的主要任务。
 
2、hadoop测试环境安装情况
四台虚拟机,1个Master,3个Salve,节点之间可以互相ping通。
master 192.168.1.2
salve1 192.168.1.3
salve2 192.168.1.4
salve3 192.168.1.5
操作系统使用centos6.0
 
3、网络配置
查看当前机器的名称
hostmane
 
发现机器名称不对,修改配置文件“/etc/sysconfig/network”,
修改其中的"HOSTNAME",设定形式:设定值=值
修改方式如下:
 
vi /etc/sysconfig/network
 
将HOSTNAME修改为
HOSTNAME=Master.Hadoop
 
备注:
NETWORKING 是否利用网络
GATEWAY 默认网关
IPGTEWAYDEV 默认网关的网卡名
HOSTNAME 主机名
DOMAIN 域名
 
 
 
修改当前机器IP
假定我们的机器连IP
文件进行配置,该文件位于“/etc/sysconfig/network-scripts”文件夹下。
 
  在这个目录下面,存放的是网络接口(网卡)的制御脚本文件(控制文件),
ifcfg-eth0默认的第一个网络接口,如果机器中有多个网络接口,那么名字就将依此类推ifcfg-eth1,
ifcfg-eth2,ifcfg- eth3,……。
 
备注:
EVICE 接口名(设备,网卡)
假定我们的机器连IP
文件进行配置,该文件位于“/etc/sysconfig/network-scripts”文件夹下。
在这个目录下面,存放的是网络接口(网卡)的制御脚本文件(控制文
认的第一个网络接口,如果机器中有多个网络接口,那么名字就将依此类推ifcfg-eth1,
ifcfg-eth2,ifcfg- eth3,……。
这里面的文件是相当重要的
设定形式:设定值=值
设定项目项目如下:
D
BOOTPROTO IP的配置方法(static:固定IP,dhcpHCP,none:手动)
HWADDR MAC地址
ONBOOT 系统启动的时候网络接口是否有效(yes/no)
TYPE 网络类型(通常是Ethemet)
NETMASK 网络掩码
IPADDRIP地址
IPV6INIT IPV6是否有效(yes/no)
GATEWAY 默认网关IP地址
 
vi /etc/sysconfig/network-scripts/ifcfg-eth0
修改
IPADDR=192.168.1.2
GATEWAY=192.168.1.1
DNS1=202.113.222.123
 
ifconfig查看修改后结果
 
 
配置Hosts文件
我们要测试俩台机器之间是否联通,一般是ping机器的IP,如果想ping机器的名字
而不是机器的IP,就需要修改Hosts文件。
 
vi /etc/hosts
增加 Master.Hadoop
 
ping Master.Hadoop
 
 
二、Hadoop安装
1、下载jdk.tar和hadoop1.0.tar
将这俩个文件通过FTP上传到linux
 
2、SSH无密码验证配置
   Hadoop运行过程中需要管理远端Hadoop守护进程,在Hadoop启动以后,NameNode
是通过SSH(Secure Shell)来启动和停止各个DataNode上的各种守护进程的。这就必须在
节点之间执行指令的时候是不需要输入密码的形式,故我们需要配置SSH运用无密码公钥
认证的形式,这样NameNode使用SSH无密码登陆并启动DataName进程,

 

同样原理,DataNode上也能使用SSH无密码登录到NameNode。
分享到:
评论

相关推荐

    hadoop-lzo-0.4.20.jar

    hadoop2 lzo 文件 ,编译好的64位 hadoop-lzo-0.4.20.jar 文件 ,在mac 系统下编译的,用法:解压后把hadoop-lzo-0.4.20.jar 放到你的hadoop 安装路径下的lib 下,把里面lib/...行不行,不行的话,重启一下hadoop 集群

    flink-shaded-hadoop-2-uber-2.7.5-10.0.jar

    flink整合Hadoop,注意:以 Yarn 模式部署 Flink 任务时,要求 Flink 是有 Hadoop 支持的版本,Hadoop 环境需要保证版本在 2.2 以上,并且集群中安装有 HDFS 服务。

    hadoop-core-1.2.1.jar

    遇到的问题: ERROR security.UserGroupInformation: PriviledgedActionException as:chuck cause:java.io.IOException: Failed to set permissions of path: ...结论: 已解决我的问题,可以正常访问hadoop集群。

    Apache Hadoop (hadoop-3.3.3.tar.gz)

    Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计...

    eclipse远程连接hadoop集群 hadoop-eclipse-plugin-2.6.0.jar

    windows下 eclipse操作hadoop集群 插件

    Apache Hadoop (hadoop-3.3.3-src.tar.gz)

    Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计...

    Apache Hadoop (hadoop-3.2.3-src.tar.gz)

    Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计...

    Hadoop下载 hadoop-3.3.3.tar.gz

    Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...

    hadoop-lzo-0.4.15.jar

    hadoop2 lzo 文件 ,编译好的64位 hadoop-lzo-0.4.15.jar 文件 ,在mac 系统下编译的,用法:解压后把hadoop-lzo-0.4.15.jar 放到你的hadoop 安装路径下的lib 下,把里面lib/...行不行,不行的话,重启一下hadoop 集群

    大数据系统学习笔记-0002 - Hadoop集群搭建 - 资源包

    大数据系统学习笔记-0002 - Hadoop集群搭建 - 资源包 资源列表: hadoop-2.7.4.tar.gz jdk-8u301-linux-x64.tar.gz zookeeper-3.4.10.tar.gz

    编译hadoop-2.5.0-cdh5.3.6 + snappy 源码的native包

    linux 系统为centos6.5 hadoop版本:2.5.0 cdh3.5.6环境下使用

    Apache Hadoop (hadoop-3.3.1-aarch64.tar.gz)

    Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计...

    Apache Hadoop (hadoop-3.3.1-src.tar.gz 源代码)

    Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计...

    Apache Hadoop (hadoop-3.2.2-src.tar.gz 源代码)

    Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计...

    Apache Hadoop (hadoop-2.10.1-src.tar.gz 源代码)

    Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计...

    Hadoop下载 hadoop-2.9.2.tar.gz

    Hadoop 是一种分析和处理大数据的软件平台,是一个用 Java 语言实现的 Apache 的开源软件框架,在大量计算机组成的集群中实现了对海量数据的分布式计算。 Hadoop 采用 MapReduce 分布式计算框架,根据 GFS 原理开发...

    hadoop-3.3.4 版本(最新版)

    Hadoop 架构是一个开源的、基于 Java 的编程框架,设计用于跨电脑集群来 处理大数据。Hadoop 是一个能够让用户轻松搭建和使用的分布式计算平台,能 够让用户轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。 ...

    hadoop-common-2.6.0-master.zip

    用于在windows环境下,连接上hadoop集群环境,方便本地代码调试功能

    Hadoop集群搭建-完全分布式

    本文通过12个步骤实现Hadoop集群的完全分布式搭建 刚刚入门,如有错误请指出 文章目录1. 服务器准备2. 网络环境准备3. 服务器系统设置4. JDK环境安装5. Hadoop安装6. Hadoop文件配置:hadoop-env.sh(hadoop运行环境...

Global site tag (gtag.js) - Google Analytics