`
- 浏览:
28887 次
- 性别:
- 来自:
武汉
-
MapReduce编程模型的思想来源于函数式编程语言Lisp,由Google公司于2004年提出并首先应用于大型集群。同时,Google也发表了GFS、BigTable等底层系统以应用MapReduce模型。在2007年,Google’s MapReduce Programming Model-Revisted论文发表,进一步详细介绍了Google MapReduce模型以及Sazwall并行处理海量数据分析语言。Google公司以MapReduce作为基石,逐步发展成为全球互联网企业的领头羊。
Hadoop作为Apache基金会资助的开源项目,由Doug Cutting带领的团队进行开发,基于Lucene和Nutch等开源项目,实现了Google的GFS和MapReduce思想。在2004年,Doug Cutting和Mike Cafarella实现了Hadoop分布式文件系统和MapReduce并发布了最初版;2005年12月,Hadoop能够稳定运行在20个节点的集群;2006年1月,Doug Cutting加入雅虎公司,同年2月Apache Hadoop项目正式支持HDFS和MapReduce的独立开发。同时,新兴公司Cloudera为Hadoop提供了商业支持,帮助企业实现标准化安装,并志愿贡献社区。Hadoop的最新版本是0.20.2,说明其还在不断完善发展之中。
目前,在企业界和学术界对Hadoop的关注度都非常高。
2008年2月,雅虎宣布搭建出世界上最大的基于Hadoop的集群系统—Yahoo! Search Webmap,另外还被广泛应用到雅虎的日志分析、广告计算、科研实验中;Amazon的搜索门户A9.com中的商品搜索的索引生成就是基于Hadoop完成的;互联网电台和音乐社区网站Last.fm使用Hadoop集群运行日志分析、A/B测试评价、AdHoc处理和图表生成等日常作业;著名SNS网站Facebook用Hadoop构建了整个网站的数据仓库,它目前有320多台机器进行网站的日志分析和数据挖掘。
UC Berkeley等著名高校也对Hadoop进行应用和研究,以提高其整体性能,包括Matei Zaharia等人改进了Hadoop的推测式执行技术并发表了Improving MapReduce Performance in Heterogeneous Environment;Tyson Condie等人改进了MapReduce体系,允许数据在操作之间用管道传送,开发了Hadoop Online Prototype(HOP)系统,并发表了MapReduce Online。
2008年之后,国内应用和研究Hadoop的企业也越来越多,包括淘宝、百度、腾讯、网易、金山等。淘宝是国内最先使用Hadoop的公司之一;百度在Hadoop上进行广泛应用并对它进行改进和调整,同时赞助了HyperTable的开发。总之,互联网企业是Hadoop在国内的主要使用力量。
同样的,很多科研院所也投入到Hadoop的应用和研究中,包括中科院、清华大学、浙江大学和华中科技大学等。
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0
mapreduce在hadoop实现词统计和列式统计,mrwordcount工程是统计hadoop文件中的词数,mrflowcount工程是统hadoop文件中的列表
03_Hadoop MapReduce与Hadoop YARN.zip
Big Data, MapReduce, Hadoop, and Spark with Python: Master Big Data Analytics and Data Wrangling with MapReduce Fundamentals using Hadoop, Spark, and Python by LazyProgrammer English | 15 Aug 2016 | ...
之后对 Hadoop的关键技术 HDFS、MapReduce和Scheduler进行研究分析。在此研究基础之上,本文指出MapReduce应用可在程序、参数和系统三个层面进行优化。程序和参数两个层面实现优化的可选项很多,本文在第三章对此作了...
理论部分-MapReduce-hadoop1
Hadoop 用mapreduce实现Wordcount实例,绝对能用
hadoop-mapreduce-examples-2.7.1.jar
在hadoop平台上,用mapreduce编程实现大数据的词频统计
hadoop-mapreduce-examples-2.6.5.jar 官方案例源码
hadoop-mapreduce Hadoop MapReduce示例。 使用HDFS中存储的access.log文件,实现MapReduce以查找每个IP访问该网站的次数。先决条件: 已安装Hadoop。 将access.log文件复制到hdfs中。 假设它在hdfs:/// logs下用法...
(1)熟悉Hadoop开发包 (2)编写MepReduce程序 (3)调试和运行MepReduce程序 (4)完成上课老师演示的内容 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 二、实验内容 1.单词计数实验...
Hadoop MapReduce部署 Hadoop MapReduce部署 Hadoop MapReduce部署
[Packt Publishing] Hadoop MapReduce 经典实例 (英文版) [Packt Publishing] Hadoop MapReduce Cookbook (E-Book) ☆ 出版信息:☆ [作者信息] Srinath Perera, Thilina Gunarathne [出版机构] Packt ...
hadoop安装与配置及mapreduce测试网站
Hadoop的MapReduce模型精讲
Hadoop源码 包含mapred
包org.apache.hadoop.mapreduce的Hadoop源代码分析
MapReduce is the distribution system that the Hadoop MapReduce engine uses to distribute work around a cluster by working parallel on smaller data sets. It is useful in a wide range of applications, ...
Hadoop集群配置及MapReduce开发手册