接上一篇文章:
Hadoop学习全程记录——hadoop 入门
这是Hadoop学习全程记录第2篇,在这篇里我将介绍一下如何在Eclipse下写第一个MapReduce程序。
新说明一下我的开发环境:
操作系统:在windows下使用wubi安装了ubuntu 10.10
hadoop版本:hadoop-0.20.2.tar.gz
Eclipse版本:eclipse-jee-helios-SR1-linux-gtk.tar.gz
为了学习方便这个例子在“伪分布式模式”Hadoop安装方式下开发。
第一步,我们先启动Hadoop守护进程。
如果你读过我第1篇文章
Hadoop学习全程记录——hadoop 入门应该比较清楚在“伪分布式模式”下启动Hadoop守护进程的方法,在这里就不多说了。
第二步,在Eclipse下安装hadoop-plugin。
1.复制 hadoop安装目录/contrib/eclipse-plugin/hadoop-0.20.2-eclipse-plugin.jar 到 eclipse安装目录/plugins/ 下。
2.重启eclipse,配置hadoop installation directory。
如果安装插件成功,打开Window-->Preferens,你会发现Hadoop Map/Reduce选项,在这个选项里你需要配置Hadoop installation directory。配置完成后退出。
3.配置Map/Reduce Locations。
在Window-->Show View中打开Map/Reduce Locations。
在Map/Reduce Locations中新建一个Hadoop Location。在这个View中,右键-->New Hadoop Location。在弹出的对话框中你需要配置Location name,如myubuntu,还有Map/Reduce Master和DFS Master。这里面的Host、Port分别为你在mapred-site.xml、core-site.xml中配置的地址及端口。如:
Map/Reduce Master
localhost
9001
DFS Master
localhost
9000
配置完后退出。点击DFS Locations-->myubuntu如果能显示文件夹(2)说明配置正确,如果显示"拒绝连接",请检查你的配置。
第三步,新建项目。
File-->New-->Other-->Map/Reduce Project
项目名可以随便取,如hadoop-test。
复制 hadoop安装目录/src/example/org/apache/hadoop/example/WordCount.java到刚才新建的项目下面。
第四步,上传模拟数据文件夹。
为了运行程序,我们需要一个输入的文件夹,和输出的文件夹。输出文件夹,在程序运行完成后会自动生成。我们需要给程序一个输入文件夹。
1.在当前目录(如hadoop安装目录)下新建文件夹input,并在文件夹下新建两个文件file01、file02,这两个文件内容分别如下:
file01
Hello World Bye World
file02
Hello Hadoop Goodbye Hadoop
2.将文件夹input上传到分布式文件系统中。
在已经启动Hadoop守护进程终端中cd 到hadoop安装目录,运行下面命令:
bin/hadoop fs -put input input01
这个命令将input文件夹上传到了hadoop文件系统了,在该系统下就多了一个input01文件夹,你可以使用下面命令查看:
bin/hadoop fs -ls
第五步,运行项目。
1.在新建的项目hadoop-test,点击WordCount.java,右键-->Run As-->Run Configurations
2.在弹出的Run Configurations对话框中,点Java Application,右键-->New,这时会新建一个application名为WordCount
3.配置运行参数,点Arguments,在Program arguments中输入“你要传给程序的输入文件夹和你要求程序将计算结果保存的文件夹”,如:
hdfs://localhost:9000/user/panhuizhi/input01 hdfs://localhost:9000/user/panhuizhi/output01
这里面的input01就是你刚传上去文件夹。文件夹地址你可以根据自己具体情况填写。
4.点击Run,运行程序。
点击Run,运行程序,过段时间将运行完成,等运行结束后,可以在终端中用命令:
bin/hadoop fs -ls
查看是否生成文件夹output01。
用下面命令查看生成的文件内容:
bin/hadoop fs -cat output01/*
如果显示如下,恭喜你一切顺利,你已经成功在eclipse下运行第一个MapReduce程序了。
Bye 1
Goodbye 1
Hadoop 2
Hello 2
World 2
- 大小: 29.2 KB
- 大小: 44.8 KB
- 大小: 96.4 KB
- 大小: 7.2 KB
分享到:
相关推荐
Hadoop学习过程中的记录笔记:如何在Eclipse下写第一个MapReduce程序
window下eclipse中运行mapreduce程序所需要的Hadoop全部jar包
该文档的目录如下: 1.1实验目的 1.2实验环境 V 1.3实验步骤 1.3.1安装eclipse 1.3.2安装Hadoop- Eclipse Plugin ...1.3.5在Eclipse 中创建MapReduce项目 附:查看HDFS文件系统数据的三种方法
使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0
MapReduceExample 下建立新包 com.xijing.mapreduce,模仿内置的 WordCount 示例,自己编写一个 WordCount 程序,最后打包成 JAR 形式并在 Hadoop 集群上运行该 MR-App,查看运行结果。 4 分别在自编 MapReduce 程序...
Hadoop是一个主要由Java语言开发的项目,基于Hadoop的MapReduce程序也主要是使用Java语言来编写。但是有一些时候,我们需要在MapReduce程序中使用C语言、C++以及其他的语言,比如项目的开发人员更熟悉Java之外的语言...
最近学习hadoop,发现Hadoop不提供编译后的hadoop-eclipse插件,于是就自己动手编译了hadoop-eclipse-plugin-1.1.0.rar插件 Hadoop1.1.0是beta版本,有兴趣的朋友可以下载装装,感受下MapReduce编程框架
本人亲手操作搭建Hadoop集群成功,并通过Eclipse进行MapReduce程序的开发,步骤详细完整,在相关过程中配有完整代码和解释,全程无误,只需复制粘贴即可,小白新手按步骤一步一步来也能搭建Hadoop集群成功并进行...
适用用hadoop2 ,eclipse 集成插件。!可用在eclipse 开发hadoop程序
hadoop集群配置之————flume安装配置(详细版)
在hadoop平台上,用mapreduce编程实现大数据的词频统计
eclipse配置hadoop,并且如何在eclipse中进行mapreduce的开发
使用hadoop-streaming运行Python编写的MapReduce程序.rar
Hadoop Eclipse是Hadoop开发环境的插件,用户在创建Hadoop程序时,Eclipse插件会自动导入Hadoop编程接口的jar文件,这样用户就可以在Eclipse插件的图形界面中进行编码、调试和运行Hadop程序,也能通过Eclipse插件...
Hadoop为分布式编程提供了一个理想的平台,普通的程序员只要理解了分布式的特点,就可以轻易地实现分布式计算,而不需要理解分布式的细节。本文用实例讲解了在Eclipse下,使用Hadoop对数据集的统计度量的实现过程。 ...
windows下配置cygwin、hadoop等并运行mapreduce及mapreduce程序讲解
一、实验目的 (1)熟悉Hadoop开发包 (2)编写MepReduce程序 (3)调试和运行MepReduce程序 (4)完成上课老师演示的内容 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 二、实验内容 1...
hadoop学习本地win测试mapreduce程序,所要用到的环境软件.rar
搭建了一个完全分布式Hadoop集群,并通过Java写了mapreduce程序处理数据,需要下载的可以找我要具体数据。
首先寻找到hadoop下面的eclipse-plugin的jar,位置在/home/hadoop/hadoop/contrib/eclipse-plugin/hadoop-0.20.2-eclipse-plugin.jar 将其赋值到刚才解压的eclipse目录下,目录在/home/hadoop/eclipse/plugins/,...