近日,由中科院计算所主办的“Hadoop 中国2010云计算大会”在北京召开,今年已是第四届举办。包括百度、淘宝和中移动在内的诸多企业都展示了基于Hadoop的应用。在本次大会上淘宝数据平台及产品部基础研发组周敏介绍了淘宝对Hadoop的功能扩展和改造,分布式数据仓库的构思,并着重介绍了对Hive实践以及改造。以下是周敏在本次大会的ppt节选。
淘宝数据图
淘宝望目前有会员2亿左右,日均UV高达4000万,日交易量高达数亿元,每天产生大量的数据,所以部署了一个大规模的Hadoop集群,此集群规模为:
1.总容量为9.3PB,利用率77.09%。
2.共有1100台机器。
3.Master:8CPU,48GB内存,SAS Raid。
4.Slave节点异构:
8CPU/8CPU(HT)
16G/24G内存
1T*12/2T*6/1T*6 SATA JBOD
12/20 slots
|
5.约18000道作业/天,扫描数据:约500TB/天用户数474人,用户组38个
其中,从两方面介绍了Slave的规模:
1.Slave机器异构
6T机器磁盘利用率较高
Rebalance
单机速度控制:10M/s
每天9:00-23:30运行
|
2.Slave故障率
每周10-20次硬盘规章
每周1-2次主板或其他故障
|
以下为淘宝基于Hadoop版本介绍
1.基于0.19.1
2.大量Patch,主要来自官方社区0.19.2,0.20,0.21等,少部分自己开发
3.Hadoop客户端和服务端代码开发分离,云梯管理员只负责服务端升级,并保持版本向下兼容。
在Hadoop功能方面的扩展有几个方面:
1.安全性
2.Scheduler
基于FairScheduler的改造
slots动态调整
各个组使用自己的资源
|
3.Slave单磁盘容错
DataNode坏掉一块磁盘不需要停止,减少数据分发
TaskTracker坏掉一块磁盘后不对作业造成影响
|
周敏还介绍了淘宝在Master节点容灾的解决方案及将来在这方面的工作计划:
1. 3个Master+1个Standby节点
2. JobTracker无元数据,JobHistory每天备份七天前的历史文件
3. NameNode和SecondaryNameNode
Check point 1天做一次(晚上8点之后),降低NameNode启动时间
Fsimage和edits同时通过NFS写到SNN上,元数据保存两份
|
4.Standby在NN或JT机时启用
周敏表示,在这方面还有很多工作要做:
1.JobTracker单点问题
2.NameNode HA
3.Namenode内存瓶颈
Heap Size 40G,CMS gc之后23G
分布式NameNode ,Dynameic Partition Tree
|
4.Hadoop升级
5.OSD及CRUSH算法
由于数据量比较大,有些记录格式有错,使得自己编写MapReduce Job生成的数据总是少了一些,基于Hive很多的有点,所以项目就用Hive来写:
在使用Hive时的经验图
淘宝对Hive的使用时对一下几方面进行了改造:
1.UDFs
2.建立/删除临时函数
3.多线程Thrift server
4.GBK支持
5.完全JDBC
6.Multi Distinct Aggregation支持
7.认证与权限
8.bug fix
淘宝将来在Hive方面的工作图
分享到:
相关推荐
分布式消息中间件是现代软件架构中的重要组成部分,特别是在微服务和大数据处理场景中,它们扮演着数据通信的关键角色。本书《分布式消息中间件实践_倪炜(著)》深入探讨了四种主流的消息队列(Message Queue,MQ)...
那些年,与你同分同位次的同学都去了哪里?全国各大学在四川2020-2024年各专业最低录取分数及录取位次数据,高考志愿必备参考数据
麒麟win10双系统重新安装win10后麒麟启动菜单看不到解决方法
多邻国Duolingo v6.0.3 高级版.apk
QT网络编程: 实现TCP通讯设置(客户端)
减少重复造轮子,开源微信小程序商城(前后端开源:uniapp+Java)。快速搭建一个属于自己的微信小程序商城。
彩虹云商城 最新彩虹代刷V6.9.0免授权纯净完整版 直接上传源码解压缩后访问域名安装即可,亲测可用 彩虹自助下单系统 安装说明: 上传到空间后直接访问即可根据提示安装。 PHP推荐使用7.0及以上版本 V6.9 1.修复SQL注入漏洞 2.修复后台微信QQ扫码登录 V6.8.5 1.修复亿乐对接 2.新增支持倍数输入框 V6.8 1.更新全新的faka模板 2.新增微信快捷登录 3.新增批量下单功能 4.防CC配置新增滑动验证码模式 5.修复部分地区后台加载错误 6.修复https网站对接http支付接口 7.后台登录支持微信QQ扫码登录
MyBatis-Plus学习思维导图
那些年,与你同分同位次的同学都去了哪里?全国各大学在四川2020-2024年各专业最低录取分数及录取位次数据,高考志愿必备参考数据
那些年,与你同分同位次的同学都去了哪里?全国各大学在四川2020-2024年各专业最低录取分数及录取位次数据,高考志愿必备参考数据
分布式搜索引擎ElasticSearch思维导图
网鼎杯
网络安全入门教程(工具版)
科普里控制器调试软件工具使用 win64环境安装
内容概要:本文档详细介绍了GC9503V单片机a-Si TFT LCD驱动器的技术规格,包括主要特点、内部结构图、引脚定义以及系统接口等。GC9503V支持480x864分辨率,16.7百万色显示,无内置GRAM。文章还提供了详细的引脚尺寸、对齐标记尺寸、芯片信息以及接口模式控制的序列实例,如DCS写入命令及其参数。 适合人群:LCD显示屏设计人员、嵌入式系统工程师、电子硬件开发者和技术研究人员。 使用场景及目标:帮助开发者快速理解和应用GC9503V在实际产品中的具体使用方法,掌握LCM与MCU之间的数据交互方式,实现高效的屏幕驱动设计。 其他说明:GalaxyCore公司保留在不事先通知的情况下更改文档内容的权利。
那些年,与你同分同位次的同学都去了哪里?全国各大学在四川2020-2024年各专业最低录取分数及录取位次数据,高考志愿必备参考数据
yolo系列算法目标检测数据集,包含标签,可以直接训练模型和验证测试,数据集已经划分好,适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法; 包含两种标签格:yolo格式(txt文件)和voc格式(xml文件),分别保存在两个文件夹中; yolo格式:<class> <x_center> <y_center> <width> <height>, 其中: <class> 是目标的类别索引(从0开始)。 <x_center> 和 <y_center> 是目标框中心点的x和y坐标,这些坐标是相对于图像宽度和高度的比例值,范围在0到1之间。 <width> 和 <height> 是目标框的宽度和高度,也是相对于图像宽度和高度的比例值
那些年,与你同分同位次的同学都去了哪里?全国各大学在四川2020-2024年各专业最低录取分数及录取位次数据,高考志愿必备参考数据
某酒店排水课程设计计算书.doc