在Hadoop集群中动态增加和减少机器 - 知其然，知其所以然 - ITeye博客

`

x-rip

浏览: 105219 次
性别:
来自: 杭州

最近访客更多访客>>

vigour36

ljlszq

superyang_xp

promiseloney

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

xurping： kolor 写道呵呵，一直在用kryo，不过都没有去分析过它 ...
Kryo为什么比Hessian快
xjl456852：你好,我感觉那个加x70是不是有问题啊.x65在其基础上加x7 ...
Kryo为什么比Hessian快
di1984HIT：呵呵，挺复杂啊，能分享一下么
Storm 与 Esper
x-rip： marsorp 写道使得Esper中利用持久层数据库做过滤、查 ...
Storm 与 Esper
marsorp：使得Esper中利用持久层数据库做过滤、查询等操作就形同鸡肋。 ...
Storm 与 Esper

在Hadoop集群中动态增加和减少机器

博客分类：

Hadoop

阅读更多

增加机器：
1、将新增加的机器配置文件配好
2、将新增加的机器主机名/IP添加到Master机器中的$HADOOP_HOME$/conf/slaves文件中
3、在新增加的机器中输入以下命令

引用

$ cd path/to/hadoop
$ bin/hadoop-daemon.sh start datanode
$ bin/hadoop-daemon.sh start tasktracker

4、在Master机器上输入以下命令

引用

$bin/hadoop balancer

减少机器：
1、在$HADOOP_HOME$/conf/中建立文本文件excludes。
2、在excludes中写入要删除的机器主机名/IP（每行一个）。
3、在$HADOOP_HOME$/onf/hadoop-site.xml文件中添加如下代码：

引用

<property>
        <name>dfs.hosts.exclude</name>
        <value>excludes</ value>
</property>

4、执行如下代码

引用

$bin/hadoop dfsadmin -refreshNodes

分享到：

Hadoop中一些优化想法

2011-10-26 18:08
浏览 1573
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop集群中动态增加和减少机器: Hadoop集群中动态增加和减少机器 Hadoop集群中动态增加和减少机器

大数据技术之Hadoop介绍.pdf: Hadoop框架设计旨在从单⼀服务器扩展到上千台机器，每⼀台机器能够提供本地计算和存储。 4.1 Hadoop架构 Hadoop框架包括以下四个模块： Hadoop通⽤：这些模块是其他Hadoop模块所需要的Java类库和⼯具。这些类库提供...

Hadoop-Improved-Replic-Data-Placement:基于节点性能上的副本放置策略: 本人在实际项目过程中，hadoop集群是搭建在异构机器上的，即不同的机器性能有比较大的差异，因而根据hdfs的默认副本放置策略，就使得性能较差的节点会制约整个集群的性能，为了解决该问题，本人通过修改hadoop部分...

TensorFlowOnSpark 将TensorFlow程序带到Apache Spark集群上-python: 它支持在 Spark 集群上进行分布式 TensorFlow 训练和推理，目标是最大限度地减少在共享网格上运行现有 TensorFlow 程序所需的代码更改量。它的 Spark 兼容 API 通过以下步骤帮助管理 TensorFlow 集群：启动 - 在...

论文研究 - 使用Map-Reduce的基于分布式集群的3D模型检索: 本文从3D模型的三个投影视图中提取了基于词袋（BOW）标准化的SIFT特征，然后使用基于Hadoop平台的分布式K-means聚类算法来计算特征向量和聚类3D模型。为了获得精确的初始聚类中心，还提出了基于最大和最小原理的...

预测算法调研报告.doc: 但是Hadoop在实际应用过程中仍存在很多不足: 第一、一个MapReduce任务只有M ap和Reduce两个阶段，复杂的计算需要大量的Job共同完成，Job之间的依赖关系需要由开发者自己管理，这增加了开发者的研发难度。...

大数据离线计算.pdf: 离线计算架构计算⼯具有 Hive、Pig、Spark SQL、Presto、MapReduce ，⽀持 Alluxio 的存储架构，形成了离线计算引擎 Hadoop集群 hadoop实现了⼀个分布式的基础框架，核⼼设计就是：hdfs和mapreduce hdfs分布式存储...

开源的分布式内存文件系统 Tachyon.zip: AMPLab的最新目标就是Hadoop分布式文件系统（HDFS），不过HDFS在可用性和速度方面一直受人诟病，所以AMPLab创建了Tachyon（在High Scalability上非常夺目，引起了Derrick Harris的注意）。当然，AMPLab并不是第...

大数据-Inceptor技术白皮书.pdf: Spark 提供了与Hadoop Map/Reduce 相似的分布式计算框架，但却有基于内存和迭代优化的设计，因此在交互式数据分析和数据挖掘工作负载中表现更优秀。随着对大数据技术研究的深入，Spark开源生态系统得到了快速发展...

Pycon2015:使用简单的Python代码和云环境探索大数据: 以下是逐步过程的设置过程，该过程为在Amazon AWS中运行Hadoop集群设置环境，并支持用于从Wikipedia提取数据和其他自动化活动的脚本。在本地Windows计算机上安装Python和Ipython。请遵循名为“ Python和IPython...

基于大数据平台数据分析技术选型调研.pdf: 列存储：其数据在表中是按照某列存储的，这样在查询只需要少数⼏个字段的时候，能⼤⼤减少读取的数量，可以动态增加列 3. ⾼可⽤，依赖于Zookeeper 4. 写⼊速度快，适⽤于读少写多的场景 5. 稀疏性，为空的列并不占...

大数据离线计算的架构与组件.pdf: 很多传统的数据库/数据仓库也⽀持利⽤多核CPU、集群技术来进⾏分布式计算，但Hadoop的分布式计算架构更为检索和存储的结合：在早期的⼤数据组件中，存储和计算相对⽐较单⼀，但⽬前的⽅向是对存储进⼀步优化，升...

大数据技术概述.pdf: Ambari⾃动化的安装部署配置管理Hadoop集群的。Zookeeper分布式协作服务，选管家等，专门做分布式协调⼀致性⼯作。HBase实时性计算，分布式数据库。Flume⽇志采集，Sqoop数据库ETL（抽取、转换、加载），完成Hadoop...

网站架构技术: hadoop 业务拆分 web service restful 分布式服务大型网站架构演化的价值观核心价值：随网站所需灵活应对驱动力量：网站的业务发展网站架构设计误区一味追随大公司的解决方案为技术而...

Spark学习笔记—Spark计算模型: RDD是Spark核心数据结构，它是逻辑集的实体，在集群中多台机器之间进行数据分区，通过对多台机器上RDD分区的控制，能够减少数据的重排(data Shuffling)。Spark通过partitionBy运算符对原始RDD进行数据再分配从而创建...

25个大数据专业术语入门大数据必备知识.pdf: 在⼤数据预测分析中，数据科学家可能会使⽤类似机器学习、⾼级的统计过程(后⽂将对这些术语进⾏介绍)等先进的技术去预测天⽓、经济变化等。 5.规范分析。沿⽤信⽤卡交易的案例，你可能想要找出哪⽅⾯的⽀出(级⾷品...

Spark的广播变量和累加器使用方法代码示例: 通常情况下，当向Spark操作(如map,reduce)传递一个函数时，它会在一个远程集群节点上执行，它会使用函数中所有变量的副本。这些变量被复制到所有的机器上，远程机器上并没有被更新的变量会向驱动程序回传。在任务...

Global site tag (gtag.js) - Google Analytics