`
daniel_tu
  • 浏览: 179857 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Google关于分布式计算和存储的论文

 
阅读更多

最初的三大论文:

The Google File System  ,发表于October, 2003

MapReduce: Simplified Data Processing on Large Clusters , 发表于December, 2004

Bigtable: A Distributed Storage System for Structured Data ,发表于November, 2006.

这三篇的中文版可在这里 (较大2+MB)获得。

 

第二代技术

 

Caffeine: 这个软件平台为谷歌的网络搜索引擎构建了索引

 

Dremel: 是一种用来分析信息的方法,它可以在数以千计的服务器上运行,能以极快的速度处理网络规模的海量数据,从而让“大数据”看起来变小。论文写于2006年,公开于2010年。它借鉴了Web搜索中的“查询树”的概念,将一个相对巨大复杂的查询,分割成较小较简单的查询。

Google Dremel 原理 - 如何能3秒分析1PB

 

Pregel,这是一个旨在映射大量在线信息之间关系的“图表数据库”。

 

Colossus

 

F1

 

Spanner http://www.yankay.com/google-spanner%E5%8E%9F%E7%90%86-%E5%85%A8%E7%90%83%E7%BA%A7%E7%9A%84%E5%88%86%E5%B8%83%E5%BC%8F%E6%95%B0%E6%8D%AE%E5%BA%93/

Spanner的中文版在厦门大学的网站 上有。

 

EMC研究院的颜开对Google的组件,有比较多的研究。关于Dremel,参见http://www.yankay.com/google-dremel-rationale/

分享到:
评论

相关推荐

    谷歌分布式领域三大论文合集(GFS、MapReduce、BigTable)

    2. 紧随其后的就是2004年公布的 MapReduce论文,论文描述了大数据的分布式计算方式,主要思想是将任务分解然后在多台处理能力较弱的计算节点中同时处理,然后将结果合并从而完成大数据处理。 3. 最后就是谷歌发布于...

    分布式计算开源框架Hadoop介绍

    Hadoop框架中最核心的设计就是:MapReduce和HDFS。MapReduce的思想是由Google的一篇论文所提及而被广为流传...HDFS是Hadoop分布式文件系统(Hadoop Distributed File System)的缩写,为分布式计算存储提供了底层支持。

    分布式基础学习hadoop

    所谓分布式,在这里,很狭义的指代以Google的三驾马车,GFS、Map/Reduce、BigTable为框架核心的分布式存储和计算系统。通常如我一样初学的人,会以Google这几份经典的论文作为开端的。它们勾勒出了分布式存储和计算...

    谷歌论文经典中文版

    Google的经典论文中文版 Cluster:发表于2003 年,主要介绍Google 的集群架构,对Google 搜索系统的 ...SMAQ:关于海量数据的存储计算及查询的一个综述性文章。将视野从Google 系 列扩展到了当今流行的各种NoSql 系统。

    FedML:面向研究的联合学习库。 支持分布式计算,移动物联网设备上培训和独立模拟。 在NeurIPS 2020联合学习研讨会上获得最佳论文奖

    FedML:联合机器学习的研究图书馆和基准 :page_facing_up: 消息 2021-02-01 (获奖) :#NeurIPS 2020#FedML在2020 NeurIPS联合学习研讨会上获得 2020-12-12(会议演示) :#NeurIPS 2020#我们在NeurIPS 2020上...

    超详细mongodb教程.zip

    开发系统的特性让分布式计算系统存在着数据的安全性和共享的风险等问题。 什么是NoSQL? NoSQL,指的是非关系型的数据库。NoSQL有时也称作Not Only SQL的缩写,是对不同于传统的关系 型数据库的数据库管理系统的统称...

    HDFS分布式文件系统

    文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易。文件名:在文件系统中,文件名是用于定位存储位置。元数据(Metadata):保存文件属性的数据,如文件名,文件长度,文件...

    云计算技术论文

    云计算可以应用于 IT 业界的许多方面,例如存储、计算、网络等。云计算也可以应用于各种行业,例如医疗、教育、金融等。 云计算的优点 云计算有很多优点,例如可以降低成本、提高灵活性、提高可靠性等。云计算可以...

    beauty of architecture

    Google分布式计算框架(MR) Google Bigtable Database 4.2大数据应用 对企业大数据应用的理解 大数据流式计算技术解析之一 大数据流式计算技术解析之二 延伸阅读 JamesHamilton的演讲和论文 从CAP定理看设计...

    大数据基础知识入门.pdf

    CDH) HDFS HDFS ( Hadoop Distributed File System ) 是 Hadoop项目的核心组件之一,是分布式计算中数据存储 管理的基础,是基于流数据模式访问和处理超大文件的 需求而开发的,可以运行于廉价的商用服务器上。...

    Hadoop云计算2.0笔记第一课Hadoop介绍

    MapReduce 是一种分布式计算框架,源自于 Google 的 MapReduce 论文,发表于 2004 年 12 月。MapReduce 的特点包括易于编程、良好的扩展性、高容错性,适合 PB 级以上的海量数据的离线处理。 5. MapReduce 架构: ...

    hadoop-3.2.1.tar.gz

    Hadoop是Apache的一款开源框架,使用java语言编写,可以通过编写简单的程序来实现大规模数据集合的分布式计算。工作在Hadoop框架上的应用可以工作在分布式存储和计算机集群计算的环境上面。 Hadoop具有高扩展性,...

    hadoop-3.1.3.tar.gz

    Hadoop是Apache的一款开源框架,使用java语言编写,可以通过编写简单的程序来实现大规模数据集合的分布式计算。工作在Hadoop框架上的应用可以工作在分布式存储和计算机集群计算的环境上面。 Hadoop具有高扩展性,...

    hadoop-2.10.0.tar.gz

    Hadoop是Apache的一款开源框架,使用java语言编写,可以通过编写简单的程序来实现大规模数据集合的分布式计算。工作在Hadoop框架上的应用可以工作在分布式存储和计算机集群计算的环境上面。 Hadoop具有高扩展性,...

    hadoop-2.9.2.tar.gz

    Hadoop是Apache的一款开源框架,使用java语言编写,可以通过编写简单的程序来实现大规模数据集合的分布式计算。工作在Hadoop框架上的应用可以工作在分布式存储和计算机集群计算的环境上面。 Hadoop具有高扩展性,...

    大数据与云计算技术 Hadoop概论和快速入门 共40页.ppt

    源自Google GFS,BigTable,MapReduce 论文。 == HDFS == HDFS (Hadoop Distributed File System),Hadoop 分布式文件系统。 NameNode,HDFS命名服务器,负责与DataNode文件元信息保存。 DataNode,HDFS数据节点,负责存储...

    FlinkSQL实战:HBase的结合应用

    HBase作为Google发表BigTable论文的开源实现版本,是一种分布式列式存储的数据库,构建在HDFS之上的NoSQL数据库,非常适合大规模实时查询,因此HBase在实时计算领域使用非常广泛。可以实时写HBase,也可以利用...

    民生银行大数据体系架构设计与演进

    大数据起源于互联网,在2003年左右由Google发布GFS和MapReduce论文为节点拉开了新技术应用的序幕,介绍了一种利用普通PC服务器构建大规模分布式系统,来解决海量数据的存储和计算问题。在此论文

    云计算介绍和应用资料合集33篇.zip

    云计算论文--云计算的集群与分布式 云计算论文云计算的浅析与应用(提交版) 云计算网格计算 云计算行业云计算和数据产业报告 云计算行业专题一:中国云计算巨头对比系列,阿里云VS腾讯云 云计算研究报告报告 云计算...

Global site tag (gtag.js) - Google Analytics