liuxinglanyue

浏览: 546887 次
性别:
来自: 杭州

最近访客更多访客>>

hui963966800

lhc98

guoshun0321

kidding87

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2011-02 ( 10)
2011-01 ( 22)
2010-12 ( 165)
更多存档...

云计算背后的秘密（1）-MapReduce（转）

博客分类：

分布式与海量数据

云计算 Mapreduce Hadoop 互联网搜索引擎

之前在IT168上已经写了一些关于云计算误区的文章，虽然这些文章并不是非常技术，但是也非常希望它们能帮助大家理解云计算这一新浪潮，而在最近几天，IT168的唐蓉同学联系了我，希望我能将云计算背后的一些核心技术介绍给IT168的读者，虽然我本身已经忙于其它事务，但是由于云计算的核心技术是我最熟悉和最擅长，而且宣传这些技术也是我写《剖析云计算》一书和建立PeopleYun.com站点的初衷，所以我毫不犹豫地接受了这个邀请，这就是“云计算背后的秘密”这个系列的由来。

在这个新系列中将介绍多种云计算所涉及到的核心技术，包括分布式处理、分布式数据库、分布式锁、分布式文件系统、多租户架构和虚拟化等，而且将会介绍这些技术相关的产品和用例，以帮助大家进一步理解这些技术。预计每周会更新一篇，总长度会在10篇左右，希望大家能喜欢，而本文则是这个系列的第一篇。

在Google数据中心会有大规模数据需要处理，比如被网络爬虫（Web Crawler）抓取的大量网页等。由于这些数据很多都是PB级别，导致处理工作不得不尽可能的并行化，而Google为了解决这个问题，引入了MapReduce这个分布式处理框架。

技术概览

MapReduce本身源自于函数式语言，主要通过"Map（映射）"和"Reduce（化简）"这两个步骤来并行处理大规模的数据集。首先，Map会先对由很多独立元素组成的逻辑列表中的每一个元素进行指定的操作，且原始列表不会被更改，会创建多个新的列表来保存Map的处理结果。也就意味着，Map操作是高度并行的。当Map工作完成之后，系统会接着对新生成的多个列表进行清理（Shuffle）和排序，之后，会这些新创建的列表进行Reduce操作，也就是对一个列表中的元素根据Key值进行适当的合并。下图为MapReduce的运行机制：

图1. MapReduce的运行机制

接下来，将根据上图来举一个MapReduce的例子来帮助大家理解：比如，通过搜索引擎的爬虫（Spider）将海量的Web页面从互联网中抓取到本地的分布式文件系统中，然后索引系统将会对存储在这个分布式文件系统中海量的Web页面进行平行的Map处理，生成多个Key为URL，Value为html页面的键值对（Key-Value Map），接着，系统会对这些刚生成的键值对进行Shuffle（清理），之后，系统会通过Reduce操作来根据相同的key值（也就是URL）合并这些键值对。

优劣点

谈到MapReduce的优点，主要有两个方面：其一，通过MapReduce这个分布式处理框架，不仅能用于处理大规模数据，而且能将很多繁琐的细节隐藏起来，比如，自动并行化、负载均衡和灾备管理等，这样将极大地简化程序员的开发工作；其二，MapReduce的伸缩性非常好，也就是说，每增加一台服务器，其就能将差不多的计算能力接入到集群中，而过去的大多数分布式处理框架，在伸缩性方面都与MapReduce相差甚远。而 MapReduce最大的不足则在于，其不适应实时应用的需求，所以在Google最新的实时性很强的Caffeine搜索引擎中，MapReduce的主导地位已经被可用于实时处理Percolator系统所代替，其具体细节，将在本系列接下来的文章中进行介绍。

实际用例

在实际的工作环境中，MapReduce这套分布式处理框架常用于分布式grep、分布式排序、Web访问日志分析、反向索引构建、文档聚类、机器学习、数据分析、基于统计的机器翻译和生成整个搜索引擎的索引等大规模数据处理工作，并且已经在很多国内知名的互联网公司内部得到极大地应用，比如百度和淘宝。

最后，如果大家对MapReduce感兴趣的话，可以到Hadoop的官方站点上下载并试用。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

云计算背后的秘密（1）-MapReduce（转）

技术概览

优劣点

相关产品

实际用例

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

云计算背后的秘密（1）-MapReduce（转）

技术概览

优劣点

相关产品

实际用例

评论

发表评论

相关推荐

Google新一代实时搜索系统的核心机制

为什么云计算是比较安全的？

北大的分布式系统在线教材（转）

云计算背后的秘密（5）-Google的数据中心优化技术（转）

云计算背后的秘密（4）-Chubby（转）

云计算背后的秘密（3）-BigTable（转）

云计算背后的秘密（2）-GFS（转）

Bigtable：一个分布式的结构化数据存储系统(转载)

YunTable开发日记（3） – BigTable的数据模型和调用接口(转)

【google论文四】Bigtable:结构化数据的分布式存储系统(下)

【google论文四】Bigtable:结构化数据的分布式存储系统(上)

海量查询的数据优化（补充）

海量查询的数据优化

google 背后的分布式架构(三) 转载

google 背后的分布式架构(二) 转载

google背后的分布式架构(一) 转载

海量数据分析：Sawzall并行处理（中文版论文 二）

海量数据分析：Sawzall并行处理（中文版论文 一）

【google论文三】MapReduce:简化大集群上的数据处理(下)

【google论文三】MapReduce:简化大集群上的数据处理(上)

最近访客更多访客>>

海量数据分析：Sawzall并行处理（中文版论文二）

海量数据分析：Sawzall并行处理（中文版论文一）