Hadoop,MapReduce学习步骤
http://prinx.blog.163.com/blog/static/190115275201211128513868/
以下是我看过的最有价值的资料,收录在Core文件夹内,按如下顺序看效果最佳:
1.MapReduce Simplied Data Processing on Large Clusters
2.Hadoop环境的安装 By 徐伟
3.Parallel K-Means Clustering Based on MapReduce
4.《Hadoop权威指南》的第一章和第二章
5.迭代式MapReduce框架介绍 董的博客
6.HaLoop: Efficient Iterative Data Processing on Large Clusters
7.Twister: A Runtime for Iterative MapReduce
8.迭代式MapReduce解决方案(一)
9.迭代式MapReduce解决方案(二)
10.迭代式MapReduce解决方案(三)
11.Granules: A Lightweight, Streaming Runtime for Cloud Computing With Support for Map-Reduce
12.On the Performance of Distributed Data Clustering Algorithms in File and Streaming Processing Systems
13.Spark: Cluster Computing with Working Set
14.iMapReduce: A Distributed Computing Framework for Iterative Computation
15.《Hadoop权威指南》的第三章到第十章
16.Map-Reduce-Merge: Simplified Relational Data Processing on Large Clusters
17.Clustering Very Large Multi-dimensional Datasets with MapReduce
18.HBase环境的安装 By 徐伟 + HBase 测试程序
Ps:简单讲解一下上面的流程,MapReduce计算模型就是Google在(1)中提出来的,一定要仔细看这篇论文,我当初因为看的不够仔细走了很多的弯路。Hadoop是一个开源的MapReduce计算模型实现,按照(2)来安装,以及跑一遍Word Count程序,基本上就算是入门了。(3)这篇文章价值不大,但是可以通过其看一下K-Means算法是如何MapReduce化的,以后就可以举一反三了。(4)的作用就是加深对(1-3)的理解。从(5)开始就可以进入迭代MapReduce的子领域了,董是这方面的大牛。(6)(7)是(5)中提到的两篇论文,(5-7)都要仔细的看,把迭代MapReduce的基础打牢。(8-10)也是董的文章,加深一下对迭代MapReduce问题的理解。(11)(12)是Jaliya Ekanayake、Shrideep Pallickara合作的文章,他们是国外迭代MapReduce领域的发文章最多的两个人。(13)是伯克利大学的迭代MapReduce的文章,Spark是所有实验室产品中唯一已经商用推广的,赞!(14)这篇文章,我看的不是很细致,但是Collector的灵感就是来源于这篇文章。这个时候估计你已经有自己的解决方案了,要编程实现自己的设计了,需要仔细的看(15)了。(16) Map-Reduce-Merge咱们实验室曾经做过的一个问题。(17)这篇文章+Canopy算法,可以得出一些关于用MapReduce实现高质量数据抽样的思路。(18)如果需要使用HBase,可以参考这篇文章。
http://www.cnblogs.com/Dreama/articles/2947419.html
分享到:
相关推荐
在hadoop平台上,用mapreduce编程实现大数据的词频统计
一个自己写的Hadoop MapReduce实例源码,网上看到不少网友在学习MapReduce编程,但是除了wordcount范例外实例比较少,故上传自己的一个。包含完整实例源码,编译配置文件,测试数据,可执行jar文件,执行脚本及操作...
Python 中的 Hadoop Mapreduce 示例 python 中的几个 Mapreduce 示例以及有关运行它们的文档! 运行代码的步骤 文件夹结构 假定文件存储在 Linux 操作系统中的给定位置。 这只是一个示例说明,实际上位置并不重要。 ...
并通过Eclipse进行MapReduce程序的开发,步骤详细完整,在相关过程中配有完整代码和解释,全程无误,只需复制粘贴即可,小白新手按步骤一步一步来也能搭建Hadoop集群成功并进行MapReduce程序开发!!!喜欢请关注...
按照步骤完成命令行方式下Hadoop MR程序的编辑,编译,运行过程。 1)编辑java文件 可以采用任意的文本工具编辑Java代码 2)编译javac (1)设置CLASSPATH (2)编译java文件 (3)打jar包 4)执行 bin/hadoop jar ...
BIG-DATA-HADOOP-MAPREDUCE-PROJECT项目 在Hadoop MapReduce中使用3种语言英语,法语,西班牙语的平均字母计数... 步骤1:检查Hadoop版本-hadoop版本步骤2:启动HDFS守护程序-start-dfs.sh步骤3:启动Yarn守护程序–
hadoop伪分布配置步骤,详细的介绍伪分布布置的每一个步骤,在学hadoop的同学可以了解一哈,挺不错的 ,出自我们老师之手
Hadoop系统安装运行与程序开发 1.单机Hadoop系统安装基本步骤 2.集群Hadoop系统安装基本步骤 3.Hadoop集群远程作业提交与执行 4.Hadoop MapReduce程序开发
本文介绍了用Java编写并运行第一个mapreduce作业的步骤及遇到的问题和解决方案。
本节将对 Hadoop MapReduce 的工作机制进行介绍,主要从 MapReduce 的作业执行流程和 Shuffle 过程方面进行阐述。通过加深对 MapReduce 工作机制的了解,可以使程序开发者更合理地使用 MapReduce 解决实际问题。 ...
at org.apache.hadoop.mapreduce.JobSubmissionFiles.getStagingDir(JobSubmissionFiles.java:133) at org.apache.hadoop.mapreduce.JobSubmitter.submitJobInternal(JobSubmitter.java:437) at org.apache....
mrjob完全支持亚马逊的Elastic MapReduce(EMR)服务,该服务允许您按小时在Hadoop集群上购买时间。mrjob对Google Cloud data proc(data proc)提供基本支持,允许您在Hadoop集群上按分钟购买时间。它也适用于您...
很好的hadoop伪分布配置方式
1.单机Hadoop系统安装基本步骤 2.集群Hadoop系统安装基本步骤 3.Hadoop集群远程作业提交与执行 4.Hadoop MapReduce程序开发
mapred.sh 停⽌Hadoop MapReduce守护进程JobTracker和TaskTracker hadoop-daemons.sh start jobtracker 单独启动JobTracker守护进程 hadoop-daemons.sh stop jobtracker 单独停⽌JobTracker守护进程 hadoop-daemons....
请按照以下步骤进行安装 然后开始执行给定的命令 cd hadoop-3.2.2 / sbin ./start-dfs.sh ./start-yarn.sh jps 导出HADOOP_CLASSPATH = $(hadoop classpath) 回声$ HADOOP_CLASSPATH 在HDFS中创建和删除...
是大数据课程大作业,基于Hadoop的电影影评数据分析,需要安装Hadoop,了解MapReduce 和HDFS。
Hadoop平台下开发mapreduce步骤
数据挖掘和机器学习:通过Hadoop进行大规模数据处理,可以挖掘出数据中的规律和模式,为机器学习和数据挖掘提供支持。 分布式计算:Hadoop可以分布式地处理大规模计算任务,提高计算效率和可靠性。 数据备份和容灾:...
Hadoop 框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,MapReduce为海量的数据提供了计算。此外,Hadoop还包括了Hive,Hbase,ZooKeeper,Pig,Avro,Sqoop,Flume,Mahout等项目。