`

Hadoop集群搭建

 
阅读更多
hadoop集群的配置与扩展。
 
 
其中大体都提到,基本是180G磁盘/1核cpu,这样可以保证单位磁盘的计算能力(密度)。
 
由第一篇淘宝的文章计算:
淘宝Hadoop集群现在超过1700个节点,服务于用于整个阿里巴巴集团各部门,数据来源于各部门产品的线上数据库(Oracle, MySQL)备份,系统日志以及爬虫数据,数量总量已经超过17个PB,每天净增长20T左右。
 
一个节点:硬件配置:16CPU*4核,96G内存。  
 
那么:17*1024*1024G/1700节点/64CPU核 = 163.84G/CPU核  姑且认为是:180G/CPU核  
那么如果2CPU核4G内存的机器,应该分配2*180G/CPU核=360G的磁盘。
初始化机器为:3个节点,3*2CPU核4G内存360G磁盘(顶多放到500G,计算密度为180G/CPU核 )。
 
计算的好处:
1、如果单位机器磁盘过大,计算能力密度过低,磁盘的利用率差,很快计算能力会成为瓶颈(此时磁盘还有大量空闲)
2、如果单位磁盘的计算能力过强,磁盘已经耗尽,但计算能力过分富足也会浪费机器成本
3、综合来看,合理的单位磁盘计算密度,可以节省磁盘+计算资源,并且当整体资源不足时,以较低较合理的成本,从3个节点,扩展到10,扩展到100个节点。
 
腾讯云的服务器资源:

3台大概是1200元,5台大概是2000元。
另一种配置,磁盘放大到500G。

这是2CPU核4G内存,500G磁盘的单位机器成本。
磁盘单位计算能力密度相应下降一点点
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics