淘宝分布式数据处理实践

rq2_79

浏览: 239034 次
性别:
来自: 上海

最近访客更多访客>>

helohdj

ling_iori

night_joe

seaSkys

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

分布式集群

Hadoop 百度中国移动 Mapreduce 企业应用

近日，由中科院计算所主办的“Hadoop 中国2010云计算大会”在北京召开，今年已是第四届举办。包括百度、淘宝和中移动在内的诸多企业都展示了基于Hadoop的应用。在本次大会上淘宝数据平台及产品部基础研发组周敏介绍了淘宝对Hadoop的功能扩展和改造，分布式数据仓库的构思，并着重介绍了对Hive实践以及改造。以下是周敏在本次大会的ppt节选。

淘宝数据图

淘宝望目前有会员2亿左右，日均UV高达4000万，日交易量高达数亿元，每天产生大量的数据，所以部署了一个大规模的Hadoop集群，此集群规模为：

1.总容量为9.3PB，利用率77.09%。

2.共有1100台机器。

3.Master：8CPU，48GB内存，SAS Raid。

4.Slave节点异构:

8CPU/8CPU（HT）

16G/24G内存

1T*12/2T*6/1T*6 SATA JBOD

12/20 slots

5.约18000道作业/天，扫描数据：约500TB/天用户数474人，用户组38个

其中，从两方面介绍了Slave的规模：

1.Slave机器异构

6T机器磁盘利用率较高

Rebalance

单机速度控制：10M/s

每天9:00-23:30运行

2.Slave故障率

每周10-20次硬盘规章

每周1-2次主板或其他故障

以下为淘宝基于Hadoop版本介绍

1.基于0.19.1

2.大量Patch，主要来自官方社区0.19.2，0.20，0.21等，少部分自己开发

3.Hadoop客户端和服务端代码开发分离，云梯管理员只负责服务端升级，并保持版本向下兼容。

在Hadoop功能方面的扩展有几个方面：

1.安全性

密码认证

扩展ACL，用户访问其他组的数据

2.Scheduler

基于FairScheduler的改造

slots动态调整

各个组使用自己的资源

3.Slave单磁盘容错

DataNode坏掉一块磁盘不需要停止，减少数据分发

TaskTracker坏掉一块磁盘后不对作业造成影响

周敏还介绍了淘宝在Master节点容灾的解决方案及将来在这方面的工作计划：

1. 3个Master+1个Standby节点

配置文件一致，上传至SVN

2. JobTracker无元数据，JobHistory每天备份七天前的历史文件

3. NameNode和SecondaryNameNode

Check point 1天做一次（晚上8点之后），降低NameNode启动时间

Fsimage和edits同时通过NFS写到SNN上，元数据保存两份

4.Standby在NN或JT机时启用

周敏表示，在这方面还有很多工作要做：

1.JobTracker单点问题

调度效率低下导致集群利用率不足

2.NameNode HA

AvatarNode

3.Namenode内存瓶颈

Heap Size 40G,CMS gc之后23G

分布式NameNode ,Dynameic Partition Tree

4.Hadoop升级

5.OSD及CRUSH算法

由于数据量比较大，有些记录格式有错，使得自己编写MapReduce Job生成的数据总是少了一些，基于Hive很多的有点，所以项目就用Hive来写：

在使用Hive时的经验图

淘宝对Hive的使用时对一下几方面进行了改造：

1.UDFs

2.建立/删除临时函数

3.多线程Thrift server

4.GBK支持

5.完全JDBC

6.Multi Distinct Aggregation支持

7.认证与权限

8.bug fix

淘宝将来在Hive方面的工作图

分享到：

jQuery插件等 | 开发环境配置---eclipse篇

2010-12-01 13:56
浏览 1625
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

分布式消息中间件实践_倪炜(著): 分布式消息中间件是现代软件架构中的重要组成部分，特别是在微服务和大数据处理场景中，它们扮演着数据通信的关键角色。本书《分布式消息中间件实践_倪炜(著)》深入探讨了四种主流的消息队列（Message Queue，MQ）...

江西师范大学科学技术学院在四川2020-2024各专业最低录取分数及位次表.pdf: 那些年，与你同分同位次的同学都去了哪里？全国各大学在四川2020-2024年各专业最低录取分数及录取位次数据，高考志愿必备参考数据

麒麟win10双系统重新安装win10后麒麟启动菜单看不到解决方法: 麒麟win10双系统重新安装win10后麒麟启动菜单看不到解决方法

多邻国Duolingo v6.0.3 高级版.apk: 多邻国Duolingo v6.0.3 高级版.apk

QT网络编程: 实现TCP通讯设置（客户端）: QT网络编程: 实现TCP通讯设置（客户端）

前后端全部开源微信小程序商城（Java + uniapp）快速搭建一个属于自己的微信小程序商城: 减少重复造轮子，开源微信小程序商城（前后端开源：uniapp+Java）。快速搭建一个属于自己的微信小程序商城。

个人发卡彩虹云商城最新彩虹代刷V6.9.0免授权纯净完整版: 彩虹云商城最新彩虹代刷V6.9.0免授权纯净完整版直接上传源码解压缩后访问域名安装即可，亲测可用彩虹自助下单系统安装说明：上传到空间后直接访问即可根据提示安装。 PHP推荐使用7.0及以上版本 V6.9 1.修复SQL注入漏洞 2.修复后台微信QQ扫码登录 V6.8.5 1.修复亿乐对接 2.新增支持倍数输入框 V6.8 1.更新全新的faka模板 2.新增微信快捷登录 3.新增批量下单功能 4.防CC配置新增滑动验证码模式 5.修复部分地区后台加载错误 6.修复https网站对接http支付接口 7.后台登录支持微信QQ扫码登录

MyBatis-Plus学习思维导图: MyBatis-Plus学习思维导图

上海立信会计金融学院在四川2020-2024各专业最低录取分数及位次表.pdf: 那些年，与你同分同位次的同学都去了哪里？全国各大学在四川2020-2024年各专业最低录取分数及录取位次数据，高考志愿必备参考数据

广州软件学院在四川2020-2024各专业最低录取分数及位次表.pdf: 那些年，与你同分同位次的同学都去了哪里？全国各大学在四川2020-2024年各专业最低录取分数及录取位次数据，高考志愿必备参考数据

分布式搜索引擎ElasticSearch思维导图: 分布式搜索引擎ElasticSearch思维导图

基于MATLAB贪吃蛇系统GUI面板.zip: 网鼎杯

网络安全入门教程（工具版）: 网络安全入门教程（工具版）

科普里控制器调试软件工具使用: 科普里控制器调试软件工具使用 win64环境安装

a-Si TFT LCD驱动芯片GC9503V的技术参数与接口详解: 内容概要：本文档详细介绍了GC9503V单片机a-Si TFT LCD驱动器的技术规格，包括主要特点、内部结构图、引脚定义以及系统接口等。GC9503V支持480x864分辨率，16.7百万色显示，无内置GRAM。文章还提供了详细的引脚尺寸、对齐标记尺寸、芯片信息以及接口模式控制的序列实例，如DCS写入命令及其参数。适合人群：LCD显示屏设计人员、嵌入式系统工程师、电子硬件开发者和技术研究人员。使用场景及目标：帮助开发者快速理解和应用GC9503V在实际产品中的具体使用方法，掌握LCM与MCU之间的数据交互方式，实现高效的屏幕驱动设计。其他说明：GalaxyCore公司保留在不事先通知的情况下更改文档内容的权利。

岭南师范学院在四川2020-2024各专业最低录取分数及位次表.pdf: 那些年，与你同分同位次的同学都去了哪里？全国各大学在四川2020-2024年各专业最低录取分数及录取位次数据，高考志愿必备参考数据

yolo算法-跌倒检测数据集-2307张图像带标签-_人_工作_fall-detection-ngtxo.zip: yolo系列算法目标检测数据集，包含标签，可以直接训练模型和验证测试，数据集已经划分好，适用yolov5,yolov8,yolov9,yolov7,yolov10,yolo11算法；包含两种标签格:yolo格式（txt文件）和voc格式（xml文件），分别保存在两个文件夹中; yolo格式：<class> <x_center> <y_center> <width> <height>，其中： <class> 是目标的类别索引（从0开始）。 <x_center> 和 <y_center> 是目标框中心点的x和y坐标，这些坐标是相对于图像宽度和高度的比例值，范围在0到1之间。 <width> 和 <height> 是目标框的宽度和高度，也是相对于图像宽度和高度的比例值

南宁理工学院在四川2020-2024各专业最低录取分数及位次表.pdf: 那些年，与你同分同位次的同学都去了哪里？全国各大学在四川2020-2024年各专业最低录取分数及录取位次数据，高考志愿必备参考数据

某酒店排水课程设计计算书.doc: 某酒店排水课程设计计算书.doc

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论