`
x-rip
  • 浏览: 105219 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

在Hadoop集群中动态增加和减少机器

 
阅读更多
增加机器:
1、将新增加的机器配置文件配好
2、将新增加的机器主机名/IP添加到Master机器中的$HADOOP_HOME$/conf/slaves文件中
3、在新增加的机器中输入以下命令
引用
$ cd path/to/hadoop
$ bin/hadoop-daemon.sh start datanode
$ bin/hadoop-daemon.sh start tasktracker

4、在Master机器上输入以下命令
引用
$bin/hadoop  balancer


减少机器:
1、在$HADOOP_HOME$/conf/中建立文本文件excludes。
2、在excludes中写入要删除的机器主机名/IP(每行一个)。
3、在$HADOOP_HOME$/onf/hadoop-site.xml文件中添加如下代码:
引用
<property>                                                                                                                       
        <name>dfs.hosts.exclude</name>                                                                                             
        <value>excludes</ value>                                                                                                    
</property> 

4、执行如下代码
引用
$bin/hadoop dfsadmin -refreshNodes
分享到:
评论

相关推荐

    Hadoop集群中动态增加和减少机器

    Hadoop集群中动态增加和减少机器 Hadoop集群中动态增加和减少机器

    大数据技术之Hadoop介绍.pdf

    Hadoop框架设计旨在从单⼀服务器扩展到上千台机器,每⼀台机器能够提供本地计算和存储。 4.1 Hadoop架构 Hadoop框架包括以下四个模块: Hadoop通⽤:这些模块是其他Hadoop模块所需要的Java类库和⼯具。这些类库提供...

    Hadoop-Improved-Replic-Data-Placement:基于节点性能上的副本放置策略

    本人在实际项目过程中,hadoop集群是搭建在异构机器上的,即不同的机器性能有比较大的差异,因而根据hdfs的默认副本放置策略,就使得性能较差的节点会制约整个集群的性能,为了解决该问题,本人通过修改hadoop部分...

    TensorFlowOnSpark 将TensorFlow程序带到Apache Spark集群上-python

    它支持在 Spark 集群上进行分布式 TensorFlow 训练和推理,目标是最大限度地减少在共享网格上运行现有 TensorFlow 程序所需的代码更改量。 它的 Spark 兼容 API 通过以下步骤帮助管理 TensorFlow 集群: 启动 - 在...

    论文研究 - 使用Map-Reduce的基于分布式集群的3D模型检索

    本文从3D模型的三个投影视图中提取了基于词袋(BOW)标准化的SIFT特征,然后使用基于Hadoop平台的分布式K-means聚类算法来计算特征向量和聚类3D模型。 为了获得精确的初始聚类中心,还提出了基于最大和最小原理的...

    预测算法调研报告.doc

    但是Hadoop在实际应用过程中仍存在很多不足: 第一、一个MapReduce任务只有M ap和Reduce两个阶段,复杂的计算需要大量的Job共同完成,Job之间的依赖关系需要由 开发者自己管理,这增加了开发者的研发难度。...

    大数据离线计算.pdf

    离线计算架构 计算⼯具有 Hive、Pig、Spark SQL、Presto、MapReduce ,⽀持 Alluxio 的存储架构,形成了离线计算引擎 Hadoop集群 hadoop实现了⼀个分布式的基础框架,核⼼设计就是:hdfs和mapreduce hdfs分布式存储...

    开源的分布式内存文件系统 Tachyon.zip

     AMPLab的最新目标就是Hadoop分布式文件系统(HDFS),不过HDFS在可用性和速度方面一直受人诟病,所以AMPLab创建了Tachyon( 在High Scalability上非常夺目,引起了Derrick Harris的注意)。 当然,AMPLab并不是第...

    大数据-Inceptor技术白皮书.pdf

    Spark 提供了与Hadoop Map/Reduce 相似的分布式计 算框架,但却有基于内存和迭代优化的设计,因此在交互式数据分析和数据挖掘工作负载中表现更优秀。 随着对大数据技术研究的深入,Spark开源生态系统得到了快速发展...

    Pycon2015:使用简单的Python代码和云环境探索大数据

    以下是逐步过程的设置过程,该过程为在Amazon AWS中运行Hadoop集群设置环境,并支持用于从Wikipedia提取数据和其他自动化活动的脚本。 在本地Windows计算机上安装Python和Ipython。 请遵循名为“ Python和IPython...

    基于大数据平台数据分析技术选型调研.pdf

    列存储:其数据在表中是按照某列存储的,这样在查询只需要少数⼏个字段的时候,能⼤⼤减少读取的数量,可以动态增加列 3. ⾼可⽤,依赖于Zookeeper 4. 写⼊速度快,适⽤于读少写多的场景 5. 稀疏性,为空的列并不占...

    大数据离线计算的架构与组件.pdf

    很多传统的数据库/数据仓库也⽀持利⽤多核CPU、集群技术来进⾏分布式计算,但Hadoop的分布式计算架构更为 检索和存储的结合: 在早期的⼤数据组件中,存储和计算相对⽐较单⼀,但⽬前的⽅向是对存储进⼀步优化, 升...

    大数据技术概述.pdf

    Ambari⾃动化的安装部署配置管理Hadoop集群的。Zookeeper分布式协作服务,选管家等,专门做分布 式协调⼀致性⼯作。HBase实时性计算,分布式数据库。Flume⽇志采集,Sqoop数据库ETL(抽取、转换、加载),完成Hadoop...

    网站架构技术

    hadoop 业务拆分 web service restful 分布式服务 大型网站架构演化的价值观 核心价值:随网站所需灵活应对 驱动力量:网站的业务发展 网站架构设计误区 一味追随大公司的解决方案 为技术而...

    Spark学习笔记—Spark计算模型

    RDD是Spark核心数据结构,它是逻辑集的实体,在集群中多台机器之间进行数据分区,通过对多台机器上RDD分区的控制,能够减少数据的重排(data Shuffling)。Spark通过partitionBy运算符对原始RDD进行数据再分配从而创建...

    25个大数据专业术语入门大数据必备知识.pdf

    在⼤数据预测分析中,数据科学家可能会使⽤类 似机器学习、⾼级的统计过程(后⽂将对这些术语进⾏介绍)等先进的技术去预测天⽓、经济变化等。 5.规范分析。沿⽤信⽤卡交易的案例,你可能想要找出哪⽅⾯的⽀出(级⾷品...

    Spark的广播变量和累加器使用方法代码示例

    通常情况下,当向Spark操作(如map,reduce)传递一个函数时,它会在一个远程集群节点上执行,它会使用函数中所有变量的副本。这些变量被复制到所有的机器上,远程机器上并没有被更新的变量会向驱动程序回传。在任务...

Global site tag (gtag.js) - Google Analytics