Hadoop集群搭建

wengn

浏览: 62371 次
性别:
来自: 深圳

最近访客更多访客>>

Adan-Chiu

fanguoliang

liangeye

rayman2000

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hadoop集群的配置与扩展。

参考文章：http://www.thebigdata.cn/Hadoop/11743.html

还有文章：http://blog.csdn.net/ab198604/article/details/8250461

其中大体都提到，基本是180G磁盘/1核cpu，这样可以保证单位磁盘的计算能力（密度）。

由第一篇淘宝的文章计算:

淘宝Hadoop集群现在超过1700个节点，服务于用于整个阿里巴巴集团各部门，数据来源于各部门产品的线上数据库（Oracle, MySQL）备份，系统日志以及爬虫数据，数量总量已经超过17个PB，每天净增长20T左右。

一个节点：硬件配置：16CPU*4核，96G内存。

那么：17*1024*1024G/1700节点/64CPU核 = 163.84G/CPU核姑且认为是：180G/CPU核

那么如果2CPU核4G内存的机器，应该分配2*180G/CPU核=360G的磁盘。

初始化机器为：3个节点，3*2CPU核4G内存360G磁盘（顶多放到500G，计算密度为180G/CPU核）。

计算的好处：

1、如果单位机器磁盘过大，计算能力密度过低，磁盘的利用率差，很快计算能力会成为瓶颈（此时磁盘还有大量空闲）

2、如果单位磁盘的计算能力过强，磁盘已经耗尽，但计算能力过分富足也会浪费机器成本

3、综合来看，合理的单位磁盘计算密度，可以节省磁盘+计算资源，并且当整体资源不足时，以较低较合理的成本，从3个节点，扩展到10，扩展到100个节点。

腾讯云的服务器资源：

3台大概是1200元，5台大概是2000元。

另一种配置，磁盘放大到500G。

这是2CPU核4G内存，500G磁盘的单位机器成本。

磁盘单位计算能力密度相应下降一点点

分享到：

数据仓库中的雪花模型和星型模型 | Mysql 性能配置

2016-04-16 21:18
浏览 563
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论