`
xinyeyouxiang
  • 浏览: 6181 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

初学Hadoop(四)-HDFS HA

阅读更多
一、概述

  用QJM(Quorum Journal Manager)来配置 HA高可用HDFS集群概述。

 

二、QJM实现数据共享

1. 编辑 hdfs-site.xml 文件

1.1 dfs.nameservices 新添的命名服务逻辑名称 

 

<property>  <name>dfs.nameservices</name>  <value>mycluster</value>    </property>

  1.2 dfs.ha.namenodes.[nameservice ID] NameNode的唯一标识

每个nameservice 最多2namenodes

<property>  <name>dfs.ha.namenodes.mycluster</name>  <value>nn1,nn2</value></property>

1.3 dfs.namenode.rpc-address.[nameservice ID].[name node ID]

配置每个namenode的Rpc全路径监听地址

<property>  <name>dfs.namenode.rpc-address.mycluster.nn1</name>  <value>machine1.example.com:8020</value></property><property>  <name>dfs.namenode.rpc-address.mycluster.nn2</name>  <value>machine2.example.com:8020</value></property>

1.4 dfs.namenode.http-address.[nameservice ID].[name node ID]

配置每个namenode的http全路径监听地址

<property>  <name>dfs.namenode.http-address.mycluster.nn1</name>  <value>machine1.example.com:50070</value></property><property>  <name>dfs.namenode.http-address.mycluster.nn2</name>  <value>machine2.example.com:50070</value></property>

注意事项:Hadoop的安全特性开启时,http-address也要开启

1.5 dfs.namenode.shared.edits.dir nameNode能够读写的目录

qjournal://host1:port1;host2:port2;host3:port3/journalId

 

<property>  <name>dfs.namenode.shared.edits.dir</name>  <value>qjournal://node1.example.com:8485;node2.example.com:8485;node3.example.com:8485/mycluster</value></property>

1.6 dfs.client.failover.proxy.provider.[nameservice ID] java api 调用可用的namenode

<property>  <name>dfs.client.failover.proxy.provider.mycluster</name>  <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value></property>

1.7 dfs.ha.fencing.methods 调用 namenode 失败后执行的脚本或是java

QJM只允许一个namdenode进行读写JournalNodes

Sshfence 必须配置 dfs.ha.fencing.ssh.private-key-files

 

<property>  <name>dfs.ha.fencing.methods</name>  <value>sshfence</value></property> <property>  <name>dfs.ha.fencing.ssh.private-key-files</name>  <value>/home/exampleuser/.ssh/id_rsa</value></property>

 

 

<property>  <name>dfs.ha.fencing.methods</name>  <value>sshfence([[username][:port]])</value></property><property>  <name>dfs.ha.fencing.ssh.connect-timeout</name>  <value>30000</value></property>

 

 

shell

 

<property>  <name>dfs.ha.fencing.methods</name>  <value>shell(/path/to/my/script.sh arg1 arg2 ...)</value></property>

 

 

<property>  <name>dfs.ha.fencing.methods</name>  <value>shell(/path/to/my/script.sh --nameservice=$target_nameserviceid $target_host:$target_port)</value></property>

$target_host

hostname of the node to be fenced

$target_port

IPC port of the node to be fenced

$target_address

the above two, combined as host:port

$target_nameserviceid

the nameservice ID of the NN to be fenced

$target_namenodeid

the namenode ID of the NN to be fenced

 

 

1.8  fs.defaultFS

core-site.xml

<property>  <name>fs.defaultFS</name>  <value>hdfs://mycluster</value></property>

1.9 dfs.journalnode.edits.dir

<property>  <name>dfs.journalnode.edits.dir</name>  <value>/path/to/journal/node/local/data</value></property>

配置自动failedOver 

hdfs-site.xml 文件

 <property>   <name>dfs.ha.automatic-failover.enabled</name>   <value>true</value> </property>

core-site.xml 文件

 <property>   <name>ha.zookeeper.quorum</name>   <value>zk1.example.com:2181,zk2.example.com:2181,zk3.example.com:2181</value> </property>

初始化HA状态在zookeeper

$ hdfs zkfc -formatZK

 

执行start-dfs.sh 后会执行ZKFC 守护进程

手动方式

$ hadoop-daemon.sh start zkfc

安全连接zookeeper core-site.xml

<property>   <name>ha.zookeeper.auth</name>   <value>@/path/to/zk-auth.txt</value> </property> <property>   <name>ha.zookeeper.acl</name>   <value>@/path/to/zk-acl.txt</value> </property>

 

 

 

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    hadoop-2.7.1.tar.gz

    - 配置`etc/hadoop/hdfs-site.xml`来设置HDFS的副本数、HA和Erasure Coding等参数。 - 对于YARN,需要在`etc/hadoop/yarn-site.xml`中配置资源管理器和应用历史服务器的相关参数。 4. **MapReduce编程模型**: -...

    hadoop2.2.0-linux-64bit安装包和源码包

    - **功能增强**:Hadoop 2.2.0 版本中的HDFS进行了多项改进,例如支持更多的元数据操作、增强了HA(High Availability)功能,使得集群在出现故障时能够更快地恢复。 - **性能提升**:通过对HDFS内部机制的优化,...

    hadoop 2.5.2 源码

    - HDFS HA(High Availability):提供了NameNode的热备机制,增强了系统的可用性。 - HDFS Federation:通过多个命名空间支持更大的集群,每个命名空间对应一个独立的NameNode。 - BlockChecksum:改进了数据...

    Hadoop 官方文档(中文版)

    - HDFS HA(高可用性)和 Federation:提高Hadoop集群的稳定性和扩展性。 - MapReduce优化技巧:包括输入输出格式、Combiner、Reducer优化等。 6. **Hadoop 生态系统**: - 其他相关项目,如Hive(数据仓库工具...

    hadoop-eclipse-plugin-1.0.3

    2. HDFS的高可用性(HA)尚未实现,如果NameNode出现故障,整个系统可能会停滞。 3. MapReduce框架还在不断发展,此版本可能不包含后来版本中的一些优化和新特性。 尽管如此,对于学习Hadoop的基本原理和MapReduce...

    hadoop3-quick-start:这是一个存储有关hadoop3-quick入门指南的所有示例的存储库

    在Hadoop 3中,HDFS有了更多的优化,比如支持更大数据块(128MB或256MB)、改进的NameNode HA(High Availability)和 Federation 功能,以及更灵活的数据放置策略,这些都提高了系统的稳定性和性能。 MapReduce是...

    Hadoop3.0 + JDK1.8.1+Hadoop-win运行包2.6.0--3.0.0

    总的来说,这个组合包提供了一个方便的途径,让Windows用户能够在本地搭建和测试Hadoop 3.0集群,无需深入学习Linux操作,这对于初学者和开发者来说是非常有益的。安装和配置过程中需要注意环境变量的设置,确保...

    hadoop-2.6.4

    2. HA(High Availability):Hadoop 2.6.4支持NameNode HA,通过设置多个NameNode,确保即使主NameNode故障,系统仍能正常运行。 3. 提升性能:此版本对网络通信进行了优化,减少了数据传输延迟,提高了整体计算...

    hadoop-2.7.1

    2. HDFS HA(High Availability):此版本增强了HDFS的高可用性,通过NameNode的热备和故障切换,保证了服务的连续性。 3. 提升性能:2.7.1对网络通信进行了优化,降低了延迟,提高了I/O性能,使得大规模数据处理...

    Apache Hadoop2.x 安装入门详解 PDF

    本教程将详细讲解Apache Hadoop 2.x的安装过程,帮助初学者快速入门。 一、Hadoop的体系结构 Hadoop的核心由两个主要组件构成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是一种分布式文件系统,能...

    hadoop-2.10.1.tar.gz(手动编译后的版本)

    2. HA HDFS(High Availability for HDFS):提供了NameNode的热备功能,以防止单点故障,增强了整个HDFS的稳定性。 3. Erasure Coding:一种数据冗余技术,可以替代传统副本方式,减少存储空间,同时提供数据恢复...

    细细品味Hadoop(Hadoop安装及配置).rar_hadoop_细细品味Hadoop

    此外,为了实现高可用性,还可以配置Hadoop的HA(High Availability),包括设置备用NameNode和Zookeeper集群。 总之,理解并掌握Hadoop的安装与配置是深入学习大数据处理的基础。通过实践操作,你可以更好地领会...

    Hadoop书籍.rar

    常见的面试题目可能包括Hadoop架构、HDFS的HA(High Availability)、MapReduce的优化策略、YARN的工作原理等。 学习Hadoop,不仅要理解其基本概念,还需掌握其实战应用。通过阅读这些书籍和解答面试题,可以全面...

    Hadoop集群环境搭建

    为了实现集群的高可用性,还需要配置Hadoop的HA(High Availability)。这通常包括设置两个NameNode(主和备用),并配置Zookeeper以监控和切换NameNode角色。 文件`hadoop安装配置.txt`可能是博主分享的详细配置...

    DANY资源-hadoop.zip

    首先,Hadoop由两个主要部分组成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是一种分布式文件系统,它可以跨多台计算机(称为节点)存储和管理大量数据。HDFS的设计目标是高容错性和高吞吐量,即使...

    基于Greenplum-Hadoop-分布式平台的大数据解决方案01-Greenplum架构(1)

    3. **联邦查询**: 通过Greenplum的外部表功能,可以直接查询HDFS上的数据,实现Hadoop与Greenplum之间的无缝集成。 4. **联合分析**: 结合Hadoop的批处理能力和Greenplum的在线分析处理(OLAP)能力,可以进行大规模...

    第3章hadoop伪分布式环境的搭建.docx

    Hadoop作为大数据处理的核心框架,对于初学者和专业开发人员来说,理解并掌握其安装配置至关重要。Hadoop提供了多种运行模式,包括本地模式、伪分布式模式以及集群模式,每种模式都有其特定的应用场景。本文将重点...

Global site tag (gtag.js) - Google Analytics