什么是MPP架构?
众所周知,基于Map-Reduce模式的Hadoop擅长数据批处理,不是特别符合即时查询的场景。而业界当前做大数据实时查询一般都采用MPP架构,MPP全称Massively Parallel Processing,即大规模并行处理系统。大家都知道在数据库架构设计中,目前主要有Shared Everthing、和Shared Storage、Shared Nothing这三种主流架构,概要架构如下图所示:
Shared Everthting:完全透明共享CPU/MEMORY/IO,并行处理能力是最差的,性能的提升严重依赖单机硬件的升级并总有天花板。
Shared Storage:各个处理单元使用自己的私有 CPU和Memory,共享磁盘系统。典型的代表Oracle Rac,它是数据共享。
Shared Nothing:各个处理单元都有自己私有的CPU/内存/硬盘等,各处理单元之间通过协议通信,并行处理和扩展能力更好。业界如Vertica , Greenplum 都采用该架构来进行大数据实时计算和分析。
MPP作为海量数据实时分析架构也正是采用了Shared Nothing架构,是一种不共享架构,每个节点都有自己的cpu、内存和存储,节点之间信息交互只能通过网络连接实现。
MPP架构的优势:
- 采用Shared Nothing架构可轻松通过扩展机器节点(处理单元)扩展整个系统的分布式存储和计算能力。
- 任务并行执行能力强,充分发挥本地计算的能力,数据无共享、无I/O冲突,无锁资源竞争,计算速度快,例如实测对比GreenPlum和Hive,GP比Hive计算速度高出至少一个数量级。
- 成本低,有弹性。
大数据即时分析为什么使用MPP架构?
传统数据库并不是专为数据分析而设计,随着大数据时代的到来,面向事务性处理的传统数据库和面向分析的分析型数据库逐步走向分离,从上一段MPP架构的优势可以看出,扩展性好、成本低、在控制网络传输带宽和交互数据量前提下进行大数据即时分析计算速度较快性价比高是互联网公司采用MPP架构作为海量数据即时分析的主要原因,我们公司对于大数据实时分析需求一直都非常渴求,在面对十亿、百亿等数据量下Higo和garuda实际也是采用了MPP架构模式,Higo基于solr和lucene开源软件进行了改造,其中充分利用solr的可分布式的能力进行数据统计,计算节点由solr core承担,计算所需的索引文件也是分布式不共享存储在各个solr core中,通过一个管理节点对整个节点进行调度和管理并进行各节点数据的汇总或合并;Garuda在架构设计上也是采用MPP架构来充分发挥本地计算的能力,采用了分区将计算任务通过各节点同时并行进行计算最终合并结果,具体设计如下图:
相关推荐
openLooKeng 基于高速协议的 MPP 数据库 Connector 方案实践 Kyuubi 在小米大数据平台的应用实践 为 Spark on Kubernetes 提供更完善的调度能力! 阿里云 EMR StarRocks 介绍 百度AutoDL:自动化可解释的深度学习 ...
02H3C DataEngine MPP产品介绍 201方案典型架构和组网--王武斌 203大数据系列培训-H3C DataEngine ETL 204DataEngine BI 产品介绍-周双双 205IT大数据 2华三大数据解决方案 301 Hadoop专题介绍 8校园无线...
基于MPP-Hadoop混合架构高校数据集成系统研究 基于MPP-Hadoop混合架构高校数据集成系统研究
2-1+大数据架构体系发+展及MPP技术在大+规模数据下的应用
GBase-8A-MPP-Cluster-产品培训-日常维护手册常用命令
大数据中MPP及内存数据库技术及产品案例
GBase 8a MPP企业级大数据平台-性能测试报告.pdf
大数据技术基础培训-MPP数据库技术培训.pptx
03-H3C DataEngine MPP 产品介绍 05基础服务部网络大V- MapReduce技术简介 21 网络大V多媒体-hadoop探秘-周振华 BI培训胶片_1.3 ElasticSearch介绍 H3C DataEngine ETL手册V1.1 H3C IT大数据产品培训 解析规则...
大数据平台MPP与Hadoop架构分析.docx
大数据平台MPP与Hadoop架构分析.pdf大数据平台MPP与Hadoop架构分析.pdf
武藏点胶机编程-MPP-1操作.docx
产品介绍(设计界面) 大数据产品及服务能力全文共63页,当前为第10页。 产品介绍(调度页面) 单一业务的任务详情 图形化展示任务执行日志 任务运行情况变化曲线 全方位洞察一项任务执行 定义指定任务的报警规则 ...
k-new-mpp-samples,新的多平台项目原型的示例.zip,请参阅官方文件。
XX MPP数据库技术方案建议书模板(大数据).docxXX MPP数据库技术方案建议书模板(大数据).docxXX MPP数据库技术方案建议书模板(大数据).docxXX MPP数据库技术方案建议书模板(大数据).docxXX MPP数据库技术方案建议书...
GBase-8a-MPP-Cluster-SQL解析器
#资源达人分享计划#
Media Process Platform (MPP) module directory description
简单介绍了一些分布并行计算技术(MPP计算机)