作者: Fenng
|
可以转载, 转载时务必以超链接形式标明文章原始出处和作者信息及版权声明
网址: http://www.dbanotes.net/database/ebay_storage.html
作为电子商务领头羊的 eBay
公司,数据量究竟有多大? 很多朋友可能都会对这个很感兴趣。在这一篇
Web 2.0: How High-Volume eBay Manages Its Storage
(从+1 GB/1 min
得到的线索) 报道中,eBay 的存储主管 Paul Strong 对数据量做了一些介绍,管中窥豹,这些数据也给我们一个参考。
站点处理能力
- 平均每天的 PV 超过 10 亿 ;
- 每秒钟交易大约 1700 美元的商品 ;
- 每分钟卖出一辆车A ;
- 每秒钟卖出一件汽车饰品或者配件 ;
- 每两分钟卖出一件钻石首饰 ;
- 6 亿商品,2 亿多注册用户; 超过 130 万人把在 eBay 上做生意看作是生活的一部分。
在这样高的压力下,可靠性
达到了 99.94%,也就是说每年 5 个小时多一点的服务不可用。从业界消息来看,核心业务的可用性要比这个高。
数据存储工程组控制着 eBay 的 2PB (1Petabyte=1000Terabytes) 可用空间。这是一个什么概念,对比一下 Google 的存储
就知道了。每周就要分配 10T 数据出去,稍微算一下,一分钟大约使用 1G 的数据空间。
计算能力
eBay 使用一套传统的网格计算系统。该系统的一些特征数据:
- 170 台 Win2000/Win2003 服务器;
- 170 台 Linux (RHES3) 服务器;
- 三个 Solaris 服务器: 为 QA
构建与部署 eBay.com; 编译优化 Java / C++ 以及其他 Web 元素 ;
- Build 整个站点的时间:过去是 10 个小时,现在是 30 分钟;
- 在过去的2年半, 有 200 万次 Build,很可怕的数字。
存储硬件
每个供货商都必须通过严格的测试才有被选中的可能,这些厂家或产品如下:
- 交换机: Brocade
- 网管软件:IBM Tivoli
- NAS: Netapp (占总数据量的 5%,2P*0.05, 大约 100 T)
- 阵列存储:HDS (95%,这一份投资可不小,HDS 不便宜, EMC 在 eBay 是出局者)
负载均衡与 Failover: Resonate ;
搜索功能: Thunderstone indexing system ;
数据库软件:Oracle 。大多数 DB 都有 4 份拷贝。数据库使用的服务器 Sun E10000。另外据我所知, eBay 购买了 Quest SharePlex 全球 Licence 用于数据复制.
应用服务器
应用服务器有哪些特点呢?
- 使用单一的两层架构(这一点有点疑问,看来是自己写的应用服务器)
- 330 万行的 C++ ISAPI DLL (二进制文件有 150M)
- 数百名工程师进行开发
- 每个类的方法已经接近编译器的限制
非常有意思,根据eWeek 的该篇文档,昨天还有上面这段划掉的内容,今天上去发现已经修改了:
架构
- 高分布式
- 拍卖站点是基于 Java 的,搜索的架构是用 C++ 写的
- 数百名工程师进行开发,所有的工作都在同样的代码环境下进行
可能是被采访者看到 eWeek 这篇报道,联系了采访者进行了更正。我还有点奇怪原来"两层"架构的说法。
其他信息
- 集中化存储应用程序日志;
- 全局计费:实时的与第三方应用集成(就是eBay 自己的 PayPal 吧?)
- 业务事件流:使用统一的高效可靠消息队列. 并且使用 Cookie-cutter 模式用于优化用户体验(这似乎是大型电子商务站点普遍使用的用于提高用户体验的手法)。
后记
零散作了一点流水帐。作为一个 DBA
, 或许有一天也有机会面对这样的数据量。到那一天,再回头看这一篇电子垃圾。
更新:更详细信息请参考:Web 2.0: How High-Volume eBay Manages Its Storage
。可能处于 Cache 的问题,好几个人看到的原文内容有差异
分享到:
相关推荐
eBay Helper 能够让eBay卖家轻松处理eBay订单,打印地址标签,管理库存,产品采购等针对eBay网店外贸卖家的进销存软件,有了它,能够为您节省大量的人力及时间,让您的eBay外贸事业高速发展. eBay Helper 具体有什么功能?...
加速器是用于快速且可重复处理大量数据的工具。 可在此处找到大量文档:pip install accelerator 安装后,尝试“ ax --help ”。受支持的环境Accelerator项目已在以下位置构建,测试并运行: Ubuntu 16.04、18.04、...
系统架构:核心优势:主要功能:企业应用:Apache Griffin已经部署在eBay的生产环境中,为eBay系统提供核心数据质量检测服务(例如:实时的个性化数据平台,Hadoop 数据集等),每天验证的记录超过8亿条,数据量约...
探索来自eBay的汽车销售数据 尼古拉斯·阿坎巴特...执行大量数据清理并填充缺失值。 按品牌,型号和损坏状态检查关键统计数据。 输出量 严格清理的数据集适合进一步操作,有助于广泛理解网站上汽车列表的性质。
因为我们会将所有的业务逻辑和数据存储在以太坊区块链上,所以这将是一个完全去中心化的应用程序。与此同时,如果我们将所有的图片和大量文本都存储在以太坊区块链上,这将非常昂贵,甚至由于以太坊EVM的一些限制,...
可以对您的店铺进行统一管理,包括分销商的商品统一掉价,修改分销商品、批量更新销售商品以及下载与同步分销产品数据,高效完整的管理生意。 发货操作 未录入物流单号、暂停列表、补打物流单,扫描枪批量扫描,...
当我们面对的是全世界数以亿计的用户,每天的页面浏览量超过10亿,系统中的数据量要用皮字节(1015或250)来计算——可伸缩性是生死交关的问题。在一个可伸缩的架构中,资源的消耗应该随负载线性(或更佳)上升,...
知识图谱是一种结构化的知识表达形式,它以图形的方式组织和存储了大量实体(如人、地点、事件等)及其相互关系。在知识图谱中,实体作为节点,实体之间的各种语义关联则通过边进行连接,形成了一个庞大的数据网络。...
随着数据量的不断膨胀,数据平民化的不断推进,低延迟、高并发地在Hadoop之上提供标准SQL查询的能力成为必须要攻破的技术难题。而Apache Kylin的诞生正是基于这个背景,并成功地完成了很多人认为不可能实现的突破。...
eBay的分析平台每天处理的数据量高达100PB,超过了纳斯达克交 易平台所每天的数据处理量,为了准确分析用户的购物行为,eBay定义了超过500种类型 的数据,对顾客的的行为进行跟踪分析。2012年的双十一,中国互联网...
非常适合直接托运人或在多个市场上花费大量时间的任何人。 问题 电子商务在过去十年中爆炸式增长,并且市场的清单不断扩大:亚马逊,ebay,FB市场,速卖通,阿里巴巴等。为消费者提供的许多市场都根据购物者的喜好...
MongoDB在盛大大数据量项目中的应用 郭理靖 pdf MySQL数据库开发的三十六条军规 石展 完整 pdf Nodejs 脱离了浏览器的Javascript 袁锋 files zip NoSQL误用和常见陷阱分析 孙立 pdf SAE云计算平台的技术发展与...
大数据行业需要处理的数据之间的关系随数据量呈几何级数增长,急需一种支持海量复杂数据关系运算的数据库,图数据库应运而生。 世界上很多著名的公司都在使用图数据库,比如: 社交领域:Facebook, Twitter,...
大数据行业需要处理的数据之间的关系随数据量呈几何级数增长,急需一种支持海量复杂数据关系运算的数据库,图数据库应运而生。 世界上很多著名的公司都在使用图数据库,比如: 社交领域:Facebook, Twitter,...
本文是Cassandra数据模型设计第一篇(全两篇),该系列文章包含了eBay使用Cassandra数据模型设计的一些实践。其中一些最佳实践我们是通过社区学到的,有些对我们来说也是新知识,还有一些仍然具有争议性,可能在要...
为此,eBay 在大量实践的基础上,提出了“测试即服务(Test as a Service)”的测试基础架构,在此全新测试基础架构的支持下,测试的发起与执行将由“测试执行服务(Test Execution Service)”完成;测试执行过程中...
eBay 的数据量 64 eBay 的应用服务器规模 67 eBay 的数据库分布扩展架构 68 从LiveJournal后台发展看大规模网站性能优化方法 70 一、LiveJournal发展历程 70 二、LiveJournal架构现状概况 70 三、...