在Hadoop集群中动态增加和减少机器 - 知其然，知其所以然 - ITeye博客

`

x-rip

浏览: 105659 次
性别:
来自: 杭州

最近访客更多访客>>

vigour36

ljlszq

superyang_xp

promiseloney

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

xurping： kolor 写道呵呵，一直在用kryo，不过都没有去分析过它 ...
Kryo为什么比Hessian快
xjl456852：你好,我感觉那个加x70是不是有问题啊.x65在其基础上加x7 ...
Kryo为什么比Hessian快
di1984HIT：呵呵，挺复杂啊，能分享一下么
Storm 与 Esper
x-rip： marsorp 写道使得Esper中利用持久层数据库做过滤、查 ...
Storm 与 Esper
marsorp：使得Esper中利用持久层数据库做过滤、查询等操作就形同鸡肋。 ...
Storm 与 Esper

在Hadoop集群中动态增加和减少机器

博客分类：

Hadoop

阅读更多

增加机器：
1、将新增加的机器配置文件配好
2、将新增加的机器主机名/IP添加到Master机器中的$HADOOP_HOME$/conf/slaves文件中
3、在新增加的机器中输入以下命令

引用

$ cd path/to/hadoop
$ bin/hadoop-daemon.sh start datanode
$ bin/hadoop-daemon.sh start tasktracker

4、在Master机器上输入以下命令

引用

$bin/hadoop balancer

减少机器：
1、在$HADOOP_HOME$/conf/中建立文本文件excludes。
2、在excludes中写入要删除的机器主机名/IP（每行一个）。
3、在$HADOOP_HOME$/onf/hadoop-site.xml文件中添加如下代码：

引用

<property>
        <name>dfs.hosts.exclude</name>
        <value>excludes</ value>
</property>

4、执行如下代码

引用

$bin/hadoop dfsadmin -refreshNodes

分享到：

Hadoop中一些优化想法

2011-10-26 18:08
浏览 1583
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop集群中动态增加和减少机器: Hadoop集群中动态增加和减少机器 Hadoop集群中动态增加和减少机器

《Hadoop大数据开发实战》教学教案—03HDFS分布式文件系统.pdf: * DataNode（数据节点）是 HDFS 实例中在单独机器上运行的软件，Hadoop 集群包含一个 NameNode 和大量的 DataNode。 HDFS 数据读写流程 HDFS 数据读写流程主要包括以下几个步骤： 1. 客户端向 NameNode 请求文件...

Hadoop HA(NFS)高可集群性主备配置.pdf: 在一个典型的 HDFS(HA) 集群中，使用两台单独的机器配置为 NameNodes。在任何时间点，确保 NameNodes 中只有一个处于 Active 状态，其他的处在 Standby 状态。Standby 节点获取集群的最新文件块信息也是很有必要的，...

最新大数据Hadoop面试题!(附答案解析).pdf: 机架感知是Hadoop集群的高级功能之一，可以根据机架的拓扑结构来优化数据存储和计算。常用的机架感知工具有Rack Awareness等。本文旨在帮助大家更好地掌握Hadoop技术，了解Hadoop的基本概念和技术细节，希望能够...

大数据技术之Hadoop介绍.pdf: Hadoop框架设计旨在从单⼀服务器扩展到上千台机器，每⼀台机器能够提供本地计算和存储。 4.1 Hadoop架构 Hadoop框架包括以下四个模块： Hadoop通⽤：这些模块是其他Hadoop模块所需要的Java类库和⼯具。这些类库提供...

Scala-2.11.8集群部署: Scala-2.11.8集群部署是指在多个节点上安装和配置Scala-2.11.8环境，以便在分布式计算环境中使用Scala语言进行开发和计算。 Master节点配置在Master节点上，需要首先安装Scala-2.11.8环境。安装完成后，需要将...

Hadoop-Improved-Replic-Data-Placement:基于节点性能上的副本放置策略: 本人在实际项目过程中，hadoop集群是搭建在异构机器上的，即不同的机器性能有比较大的差异，因而根据hdfs的默认副本放置策略，就使得性能较差的节点会制约整个集群的性能，为了解决该问题，本人通过修改hadoop部分...

TensorFlowOnSpark 将TensorFlow程序带到Apache Spark集群上-python: 它支持在 Spark 集群上进行分布式 TensorFlow 训练和推理，目标是最大限度地减少在共享网格上运行现有 TensorFlow 程序所需的代码更改量。它的 Spark 兼容 API 通过以下步骤帮助管理 TensorFlow 集群：启动 - 在...

论文研究 - 使用Map-Reduce的基于分布式集群的3D模型检索: 本文从3D模型的三个投影视图中提取了基于词袋（BOW）标准化的SIFT特征，然后使用基于Hadoop平台的分布式K-means聚类算法来计算特征向量和聚类3D模型。为了获得精确的初始聚类中心，还提出了基于最大和最小原理的...

深入浅出spark.pptx: * 资源调度层：可以基于自带的 standalone 集群管理器独立运行，也可以部署在 Apache Mesos 和 Hadoop YARN 等集群管理器上运行。 * 计算层：包括 Spark SQL、Spark Streaming、GraphX、MLlib 等多种高级工具，提供...

【精品】智能边缘计算新一代大数据与人工智能的基础设施33页.pptx: 1. 云计算基础设施的构建：云计算是一整个动态的计算体系，由大量的计算机组成集群，提供托管的计算环境及应用程序环境，能够动态部署、动态分配／重分配计算资源、实时监控资源使用情况。 2. 大数据处理：大数据...

预测算法调研报告.doc: 但是Hadoop在实际应用过程中仍存在很多不足: 第一、一个MapReduce任务只有M ap和Reduce两个阶段，复杂的计算需要大量的Job共同完成，Job之间的依赖关系需要由开发者自己管理，这增加了开发者的研发难度。...

大数据离线计算.pdf: 离线计算架构计算⼯具有 Hive、Pig、Spark SQL、Presto、MapReduce ，⽀持 Alluxio 的存储架构，形成了离线计算引擎 Hadoop集群 hadoop实现了⼀个分布式的基础框架，核⼼设计就是：hdfs和mapreduce hdfs分布式存储...

开源的分布式内存文件系统 Tachyon.zip: AMPLab的最新目标就是Hadoop分布式文件系统（HDFS），不过HDFS在可用性和速度方面一直受人诟病，所以AMPLab创建了Tachyon（在High Scalability上非常夺目，引起了Derrick Harris的注意）。当然，AMPLab并不是第...

云计算技术综述.doc: 冗余存储的方式，通过任务分解和集群，用低配置机器替代超级计算机的性能，来保证低本钱。这种方式保证分布式数据的高可用、高可靠和经济性，即为同一份数据存储多个副本。云计算系统中广泛使用的数据存储系统，是...

大数据-Inceptor技术白皮书.pdf: Spark 提供了与Hadoop Map/Reduce 相似的分布式计算框架，但却有基于内存和迭代优化的设计，因此在交互式数据分析和数据挖掘工作负载中表现更优秀。随着对大数据技术研究的深入，Spark开源生态系统得到了快速发展...

Pycon2015:使用简单的Python代码和云环境探索大数据: 以下是逐步过程的设置过程，该过程为在Amazon AWS中运行Hadoop集群设置环境，并支持用于从Wikipedia提取数据和其他自动化活动的脚本。在本地Windows计算机上安装Python和Ipython。请遵循名为“ Python和IPython...

基于大数据平台数据分析技术选型调研.pdf: 列存储：其数据在表中是按照某列存储的，这样在查询只需要少数⼏个字段的时候，能⼤⼤减少读取的数量，可以动态增加列 3. ⾼可⽤，依赖于Zookeeper 4. 写⼊速度快，适⽤于读少写多的场景 5. 稀疏性，为空的列并不占...

大数据离线计算的架构与组件.pdf: 很多传统的数据库/数据仓库也⽀持利⽤多核CPU、集群技术来进⾏分布式计算，但Hadoop的分布式计算架构更为检索和存储的结合：在早期的⼤数据组件中，存储和计算相对⽐较单⼀，但⽬前的⽅向是对存储进⼀步优化，升...

大数据数仓高级面试题整理.docx: 大数据数仓高级面试题整理是指在大数据领域中，对于数仓的设计、实现和优化进行了深入的探讨和总结。本文档涵盖了数仓的基本概念、数仓的设计原则、数仓的实现方式、数仓的优化技术等多方面的内容。数仓的基本概念...

Global site tag (gtag.js) - Google Analytics