HDFS文件系统
分布式存储环境
HDFS的安装和部署
1.准备工作
准备3台机器,设置好hosts
一台作为Namenode,cc-staging-session2命名为master,
两台作为dataNode,cc-staging-front命名为slave1, cc-staging-imcenter 命名为slave2
#3台机器都创建Hadoop用户
useradd hadoop
passwd hadoop
# 安装JDK,并设置JAVA_HOME和PATH
#下载安装jdk1.7
http://www.Oracle.com/technetwork/java/javase/downloads/index.html
tar zxvf jdk-7u21-linux-x64.gz -C /usr/local/
#/etc/profile增加环境变量
pathmunge /usr/local/jdk1.7.0_21/bin
export JAVA_HOME=/usr/local/jdk1.7.0_21/
export JRE_HOME=/usr/local/jdk1.7.0_21/jre
export CLASSPATH=.:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/lib/dt.jar
2.下载安装hadoop
#下载hadoop
下载地址https://ccp.cloudera.com/display/SUPPORT/CDH3+Downloadable+Tarballs
wget http://archive.cloudera.com/cdh/3/hadoop-0.20.2-cdh3u6.tar.gz
wget http://archive.cloudera.com/cdh/3/hbase-0.90.6-cdh3u6.tar.gz
wget http://archive.cloudera.com/cdh/3/hive-0.7.1-cdh3u6.tar.gz
#在3太机器上创建相同的目录路径, name目录只存放在master上,且权限为755,否则会导致后面的格式化失败
mkdir -p /hadoop/{install,name,data1, data2,tmp}
#解压安装包到/hadoop/install下
tar zxvf hadoop-0.20.2-cdh3u6.tar.gz -C /hadoop/install/
#修改属主为hadoop
chown -R hadoop.hadoop /hadoop
3.设置hadoop账户的ssh信任关系
#在master机器上操作
su – hadoop
ssh-keygen
ssh-copy-id -i .ssh/id_rsa.pub hadoop@cc-staging-front
ssh-copy-id -i .ssh/id_rsa.pub hadoop@cc-staging-imcenter
ssh-copy-id -i .ssh/id_rsa.pub hadoop@cc-staging-session2
#测试一下,都能成功登录就行
ssh hadoop@master
ssh hadoop@slave1
ssh hadoop@slave2
4.编辑HDFS配置文件,所以节点都有保持一致
cd /hadoop/install/hadoop-0.20.2-cdh3u6/conf
#core-site.xml核心配置
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://master:9000</value>
</property>
</configuration>
#hdfs-site.xml:站点多项参数配置
<configuration>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>/hadoop/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/hadoop/data1,/hadoop/data2</value>
</property>
<property>
<name>dfs.tmp.dir</name>
<value>/hadoop/tmp</value>
</property>
</configuration>
#在hadoop-env.sh中配置JAVA_HOME变量
export JAVA_HOME=/usr/local/jdk1.7.0_21/
相关推荐
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错...
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错...
文件系统定义:文件系统是一种存储和组织计算机数据...HDFS是Hadoop技术框架中的分布式文件系统,对部署在多台独立物理机器上的文件进行管理。可用于多种场景,如:网站用户行为数据存储。生态系统数据存储。气象数据存
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错...
1.1 HDFS系统架构 1.2 HA定义 1.3 HDFS HA原因分析及应对措施 1.3.1 可靠性 1.3.2 可维护性 1.4 现有HDFS HA解决方案 1.4.1 Hadoop的元数据备份方案 1.4.2 Hadoop的SecondaryNameNode方案 1.4.3 Hadoop的Checkpoint ...
分布式文件系统HDFS(Hadoop Distributed File System)是Hadoop生态系统中的一部分,旨在运行于大规模数据集的分布式环境中,具有高度容错性和高度可用性。它的设计目标是能够管理超大规模的数据集,支持高吞吐量...
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错...
它与现有的分布式文件系统有很多近似的地方,但又和这些文件系统有很明显的不同。HDFS是高容错的,设计为部署在廉价硬件上的。HDFS对应用程序的数据提供高吞吐量,而且适用于那些大数据集应用程序。HDFS开放了一些...
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错...
它与现有的分布式文件系统有很多近似的地方,但又和这些文件系统有很明显的不同。HDFS是高容错的,设计为部署在廉价硬件上的。HDFS对应用程序的数据提供高吞吐量,而且适用于那些大数据集应用程序。HDFS开放了一些...
Linux运维-运维课程MP4频-06-大数据之Hadoop部署-22hadoop伪分布式hdfs文件系统验
HDFS目录文件
Hadoop分布式文件系统( HDFS )是一种旨在在商品硬件上运行的分布式文系统。它与现有的分布式文件系统许多相似之处。 但是,与其他分布式文件系统的区别很明显。 HDFS 具有高度的容错能力,旨在部署低成本硬件上。 ...
01_hadoop_hdfs1分布式文件系统01 02_hadoop_hdfs1分布式文件系统02 03_hadoop_hdfs1分布式文件系统03 04_hadoop_hdfs1分布式文件系统04 05_hadoop_hdfs1分布式文件系统05 06_hadoop_hdfs1分布式文件系统06 07_...
好东西,hdfs官方设计文档(翻译),Hadoop 分布式文件系统 (HDFS)是一个设计为用在普通硬件设备上的分布式文件系统。它与现有的分布式文件系统有很多近似的地方,但又和这些文件系统有很明显的不同。HDFS是高容错的,...
部署全分布模式Hadoop集群 实验报告一、实验目的 1. 熟练掌握 Linux 基本...4. 获取和安装 Hadoop。 5. 配置全分布模式 Hadoop 集群。 6. 关闭防火墙。 7. 格式化文件系统。 8. 启动和验证 Hadoop。 9. 关闭 Hadoop。
HDFS是Hadoop分布式计算的存储基础。HDFS具有高容错性,可以部署在通用硬件设备上,适合数据密集型应用,并且提供对数据读写的高吞 吐量。HDFS能 够提供对数据的可扩展访问,通过简单地往集群里添加节点就可以解决...
Hadoop Distributed File System (Hadoop分布式文件系统)。HDFS 具有高容错性,并且可以被部署在低价的...Namenode管理着整个分布式文件系统,对文件系统的操作(如建立、删除文件和文件夹)都是通过Namenode来控制。
基于Hadoop技术设计了系统的数据采集和数据处理模块,架构了数据存储的Hdfs分布式文件管理体系,实现了舆情数据信息的高效存储;使用云计算中的MapReduce编程模型和语义分析算法实现了话题发现与舆情分析模块,从而...