1、hadoop简介
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop
分布式文件系统(HDFS,Hadoop Distributed Filesystem)和MapReduce(Google
MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的
分布式基础架构。
对于Hadoop的集群来讲,可以分成两大类角色:Master和Salve。一个HDFS集群是
由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系
统的命名空间和客户端对文件系统的访问操作;集群中的DataNode管理存储的数据。
MapReduce框架是由一个单独运行在主节点上的JobTracker 和运行在每个集群从节点的
TaskTracker共同组成的。主节点负责调度构成一个作业的所有任务,这些任务分布在不同
的从节点上。主节点监控它们的执行情况,并且重新执行之前的失败任务;从节点仅负责由
主节点指派的任务。当一个Job被提交时,JobTracker接收到提交作业和配置信息之后,就
会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行。
从上面的介绍可以看出,HDFS和MapReduce共同组成了Hadoop分布式系统体系结构
的核心。HDFS在集群上实现分布式文件系统,MapReduce在集群上实现了分布式计算和
任务处理。HDFS在MapReduce任务处理过程中提供了文件操作和存储等支持,MapReduce
在HDFS的基础上实现了任务的分发、跟踪、执行等工作,并收集结果,二者相互作用,
完成了Hadoop分布式集群的主要任务。
2、hadoop测试环境安装情况
四台虚拟机,1个Master,3个Salve,节点之间可以互相ping通。
master 192.168.1.2
salve1 192.168.1.3
salve2 192.168.1.4
salve3 192.168.1.5
操作系统使用centos6.0
3、网络配置
查看当前机器的名称
hostmane
发现机器名称不对,修改配置文件“/etc/sysconfig/network”,
修改其中的"HOSTNAME",设定形式:设定值=值
修改方式如下:
vi /etc/sysconfig/network
将HOSTNAME修改为
HOSTNAME=Master.Hadoop
备注:
NETWORKING 是否利用网络
GATEWAY 默认网关
IPGTEWAYDEV 默认网关的网卡名
HOSTNAME 主机名
DOMAIN 域名
修改当前机器IP
假定我们的机器连IP
文件进行配置,该文件位于“/etc/sysconfig/network-scripts”文件夹下。
在这个目录下面,存放的是网络接口(网卡)的制御脚本文件(控制文件),
ifcfg-eth0默认的第一个网络接口,如果机器中有多个网络接口,那么名字就将依此类推ifcfg-eth1,
ifcfg-eth2,ifcfg- eth3,……。
备注:
EVICE 接口名(设备,网卡)
假定我们的机器连IP
文件进行配置,该文件位于“/etc/sysconfig/network-scripts”文件夹下。
在这个目录下面,存放的是网络接口(网卡)的制御脚本文件(控制文
认的第一个网络接口,如果机器中有多个网络接口,那么名字就将依此类推ifcfg-eth1,
ifcfg-eth2,ifcfg- eth3,……。
这里面的文件是相当重要的
设定形式:设定值=值
设定项目项目如下:
D
BOOTPROTO IP的配置方法(static:固定IP,dhcpHCP,none:手动)
HWADDR MAC地址
ONBOOT 系统启动的时候网络接口是否有效(yes/no)
TYPE 网络类型(通常是Ethemet)
NETMASK 网络掩码
IPADDRIP地址
IPV6INIT IPV6是否有效(yes/no)
GATEWAY 默认网关IP地址
vi /etc/sysconfig/network-scripts/ifcfg-eth0
修改
IPADDR=192.168.1.2
GATEWAY=192.168.1.1
DNS1=202.113.222.123
ifconfig查看修改后结果
配置Hosts文件
我们要测试俩台机器之间是否联通,一般是ping机器的IP,如果想ping机器的名字
而不是机器的IP,就需要修改Hosts文件。
vi /etc/hosts
增加 Master.Hadoop
ping Master.Hadoop
二、Hadoop安装
1、下载jdk.tar和hadoop1.0.tar
将这俩个文件通过FTP上传到linux
2、SSH无密码验证配置
Hadoop运行过程中需要管理远端Hadoop守护进程,在Hadoop启动以后,NameNode
是通过SSH(Secure Shell)来启动和停止各个DataNode上的各种守护进程的。这就必须在
节点之间执行指令的时候是不需要输入密码的形式,故我们需要配置SSH运用无密码公钥
认证的形式,这样NameNode使用SSH无密码登陆并启动DataName进程,
同样原理,DataNode上也能使用SSH无密码登录到NameNode。
相关推荐
hadoop2 lzo 文件 ,编译好的64位 hadoop-lzo-0.4.20.jar 文件 ,在mac 系统下编译的,用法:解压后把hadoop-lzo-0.4.20.jar 放到你的hadoop 安装路径下的lib 下,把里面lib/...行不行,不行的话,重启一下hadoop 集群
flink整合Hadoop,注意:以 Yarn 模式部署 Flink 任务时,要求 Flink 是有 Hadoop 支持的版本,Hadoop 环境需要保证版本在 2.2 以上,并且集群中安装有 HDFS 服务。
遇到的问题: ERROR security.UserGroupInformation: PriviledgedActionException as:chuck cause:java.io.IOException: Failed to set permissions of path: ...结论: 已解决我的问题,可以正常访问hadoop集群。
Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计...
windows下 eclipse操作hadoop集群 插件
Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计...
Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计...
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...
hadoop2 lzo 文件 ,编译好的64位 hadoop-lzo-0.4.15.jar 文件 ,在mac 系统下编译的,用法:解压后把hadoop-lzo-0.4.15.jar 放到你的hadoop 安装路径下的lib 下,把里面lib/...行不行,不行的话,重启一下hadoop 集群
大数据系统学习笔记-0002 - Hadoop集群搭建 - 资源包 资源列表: hadoop-2.7.4.tar.gz jdk-8u301-linux-x64.tar.gz zookeeper-3.4.10.tar.gz
linux 系统为centos6.5 hadoop版本:2.5.0 cdh3.5.6环境下使用
Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计...
Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计...
Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计...
Apache Hadoop 软件库是一个框架,它允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依靠硬件来提供高可用性,而是设计...
Hadoop 是一种分析和处理大数据的软件平台,是一个用 Java 语言实现的 Apache 的开源软件框架,在大量计算机组成的集群中实现了对海量数据的分布式计算。 Hadoop 采用 MapReduce 分布式计算框架,根据 GFS 原理开发...
Hadoop 架构是一个开源的、基于 Java 的编程框架,设计用于跨电脑集群来 处理大数据。Hadoop 是一个能够让用户轻松搭建和使用的分布式计算平台,能 够让用户轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。 ...
用于在windows环境下,连接上hadoop集群环境,方便本地代码调试功能
本文通过12个步骤实现Hadoop集群的完全分布式搭建 刚刚入门,如有错误请指出 文章目录1. 服务器准备2. 网络环境准备3. 服务器系统设置4. JDK环境安装5. Hadoop安装6. Hadoop文件配置:hadoop-env.sh(hadoop运行环境...