`
085567
  • 浏览: 224651 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

百度Hadoop分布式系统揭秘:4000节点集群

阅读更多

在 NoSQL 方面,之前了解到百度对 Hadoophypertable 都有研究,而且 hypertable 方面更是作为其主要赞助商之一,但之前和百度的一些朋友了解到百度内部对 hypertable 倒是使用不多,相反在 Hadoop 方面倒是有比较大的应用实例。下面一篇文章描述了百度内部4000个结点的 Hadoop 集群的一些技术细节。

百度的高性能计算系统(主要是后端数据训练和计算)目前有4000节点,超过10个的集群,最大的集群规模在1000个节点以上。每个节点由8核 CPU以及16G内存以及12TB硬盘组成,每天的数据生成量在3PB以上。规划当中的架构将有超过1万个节点,每天的数据生成量在10PB以上。

底层的计算资源管理层采用了Agent调度不同类型的计算分别给MPI结构的算法和Map-Reduce和DAG算法应用等。而通过调度的分配,可以让HPC高性能计算集群和大规模分布式集群各得其所的计算相应数据。

百度通过HCE对streaming作业的排序,压缩,解压缩,内存控制进行了优化并提供了C++版的MapReduce接口。

百度HCE语言的有关内容,HCE是基于C++的Hadoop环境,是一个全功能C++环境,可以避开Java语言对于释放内存和资源申请的弊端,并在调用数据时绕开Java语言的所有关节,极大的提升算法效率。

百度的调度器是在capacity-scheduler的基础上根据自身业务改进的。

百度计划对shuffle流程进行大幅改造

来源:http://www.cnblogs.com/chinacloud/archive/2010/11/08/1871592.html

分享到:
评论

相关推荐

    hadoop故障分析与技术方案揭秘

    其核心组件包括HDFS(Hadoop分布式文件系统)用于存储数据,以及MapReduce用于处理数据。Hadoop生态系统包含了多个相关技术,如HBase、Zookeeper、Hive等。随着大数据的快速发展,Hadoop的部署和使用日益普及,其...

    揭秘大数据存储基石HDFS-理论篇.pptx_揭秘大数据存储基石HDFS_pptx_

    HDFS是Apache Hadoop项目的核心组件之一,是为处理大规模数据集而设计的一种分布式文件系统。它以高容错性和高可用性为目标,旨在运行在廉价的硬件上,为大数据分析提供了坚实的基础。在本理论篇中,我们将深入探讨...

    淘宝技术十年发展史

    截至2011年底,淘宝网拥有全国最大的Hadoop分布式计算集群之一(2000多个节点,CPU:24000core,Memory:48000GB,Disk:24000块),每天新增数据达到50TB,存储容量高达40PB,并且在全国范围内部署了80多个节点的...

    毕业论文-智云物业 2.1.4-整站商业源码.zip

    毕业论文-智云物业 2.1.4-整站商业源码.zip

    实训商业源码-【超人】积分商城 6.0.5-论文模板.zip

    实训商业源码-【超人】积分商城 6.0.5-论文模板.zip

    基于局部费歇尔判别的LFDA-SVM二分类及多分类建模与可视化 - MATLAB实现

    内容概要:本文介绍了基于局部费歇尔判别(LFDA)和SVM的支持向量机二分类及多分类建模方法。首先,通过LFDA进行数据降维,保留局部信息,减少数据维度。接着,利用降维后的数据构建SVM分类模型,完成二分类和多分类任务。文中详细描述了LFDA的数据预处理、局部协方差矩阵和均值向量计算、类内散度和类间散度矩阵计算、广义特征值求解等步骤,以及SVM模型的训练、评估和可视化展示。最后,提供了MATLAB程序框架和关键步骤的伪代码,帮助读者理解和实现该方法。 适用人群:从事数据分析、机器学习领域的研究人员和技术人员,尤其是熟悉MATLAB编程环境的从业者。 使用场景及目标:适用于需要处理多特征输入、单输出或多输出分类任务的场景。通过LFDA降维和SVM建模,提升分类模型的性能和准确性。同时,生成分类效果图、降维展示图和混淆矩阵图,便于直观地展示和分析模型效果。 其他说明:本文提供的MATLAB代码框架和伪代码,需要根据具体应用场景进行详细实现和调整。重点在于数据预处理、特征选择、模型训练和评估等环节的具体操作。

    2025年大学新生开学季风格模板范文.pptx

    2025年大学新生开学季风格模板范文

    实训商业源码-思创兼职小程序V6.7.5 开源版-论文模板.zip

    实训商业源码-思创兼职小程序V6.7.5 开源版-论文模板.zip

    实训商业源码-旅游景区线路连锁店版V1.9.16 小程序前端+后端-论文模板.zip

    实训商业源码-旅游景区线路连锁店版V1.9.16 小程序前端+后端-论文模板.zip

    实训商业源码-【表哥】4s汽车城小程序8.1.0 前端+后端-论文模板.zip

    实训商业源码-【表哥】4s汽车城小程序8.1.0 前端+后端-论文模板.zip

    混合储能系统中飞轮与蓄电池协同平抑风电功率波动的技术研究与实现

    内容概要:本文探讨了利用混合储能系统(飞轮与蓄电池)来平抑风电功率波动的方法。文中介绍了两种主要的功率分配策略:抗脉冲平均滤波和滑动平均滤波。抗脉冲平均滤波用于应对突发性的功率变化,由飞轮快速响应;滑动平均滤波则用于处理较长时间尺度内的功率波动,由蓄电池进行调节。这两种方法相结合可以有效减少蓄电池的充放电次数并提高飞轮的响应效率。此外,文中提供了具体的Python代码示例,展示了如何通过编程实现这些策略。 适合人群:对新能源发电、电力系统稳定性以及储能技术感兴趣的科研人员和技术开发者。 使用场景及目标:适用于需要解决风电功率波动问题的风电场或相关研究项目。目标是通过合理的功率分配策略,确保电力系统的稳定运行,降低因风力发电不稳定性带来的负面影响。 其他说明:文中提到的技术手段不仅有助于提高能源利用率,还能延长储能设备的使用寿命。对于希望深入了解储能技术和风电功率管理的人来说,这是一个很好的参考资料。

    毕业论文-子恩2.0-整站商业源码.zip

    毕业论文-子恩2.0-整站商业源码.zip

    毕业论文-小小素材库 6.3.1-整站商业源码.zip

    毕业论文-小小素材库 6.3.1-整站商业源码.zip

    2025年度创意卡通小学开学季班会模板.pptx

    2025年度创意卡通小学开学季班会模板

    实训商业源码-老虎-微信淘宝客5.99.99-论文模板.zip

    实训商业源码-老虎-微信淘宝客5.99.99-论文模板.zip

    DEEPPOLAR(3)-DEEPOLAR代码

    DEEPPOLAR(3)-DEEPOLAR代码

    基于COMSOL仿真的超声清洗系统:压电片分布对声场强度的影响研究

    内容概要:本文详细探讨了利用多个28kHz压电片在2mm钢质水槽外侧分布激励超声波的技术,重点分析了压电片厚度、数量、排列方式以及钢壁厚和水槽尺寸等因素对声场强度的影响。研究表明,适中的压电片厚度能产生更强的声场,较厚的钢壁有助于更好地传递超声波,而合理的压电片分布则能确保声场的均匀传播。通过COMSOL仿真软件,作者模拟并找到了最优的压电片分布方案,以提升超声清洗的效果。 适合人群:从事超声清洗技术研发的专业人士、相关领域的研究人员和技术爱好者。 使用场景及目标:适用于希望深入了解超声清洗技术原理及其优化方法的研究人员和技术人员,旨在提高超声清洗系统的效率和性能。 其他说明:本文不仅提供了理论分析,还结合了实际实验数据和COMSOL仿真结果,为超声清洗技术的发展提供了有价值的参考。

    永磁同步电机FOC矢量控制模型及其Simulink仿真与代码实践

    内容概要:本文介绍了自主研发的永磁同步电机FOC(Field Oriented Control)矢量控制模型及其代码实现。该模型集成了多种先进功能,如FOC算法、SVPWM、DPWM、死区补偿、过调制和母线电流估算等。通过Simulink界面进行源代码仿真,验证了模型的可靠性和有效性。主要内容涵盖FOC矢量控制模型的简介、代码的功能特点、Simulink仿真的方法及其应用效果。 适合人群:从事电机控制系统研究和开发的技术人员,尤其是对永磁同步电机和FOC控制感兴趣的工程师。 使用场景及目标:适用于需要深入了解和掌握永磁同步电机FOC控制技术的研究人员和技术开发者。目标是提升电机的运行效率、稳定性和输出转矩,同时优化电机的性能和可靠性。 其他说明:文中详细描述了如何利用Simulink进行仿真测试,确保代码在各种工况下都能稳定运行。这对于希望在实际项目中应用FOC控制技术的人来说非常有帮助。

    检维修电工培训资料及规程

    检维修电工培训资料及规程

Global site tag (gtag.js) - Google Analytics