`

Hadoop MapReduce程序开发(一)

阅读更多

1.Configuration

package com.mapreduce.test1;

import org.apache.hadoop.conf.Configuration;


public class Test1 {
	public static void main(String[] args) {
		Configuration conf = new Configuration();
		conf.addResource("config-default.xml");
		conf.addResource("config-site.xml");
		System.out.println(conf.get("hadoop.tmp.dir"));
		System.out.println(conf.get("height"));
	}
}

 多个配置文件顺序加进来,后面覆盖前面属性,但不能覆盖final为true的属性

 

2.Mapper处理的数据是由InputFormat分解过来的数据集InputSplit,RecordReader将split分解成<key, value>

package com.mapReducce.test;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.io.FloatWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class Map extends Mapper<LongWritable, Text, Text, FloatWritable> {

	@Override
	protected void map(LongWritable key, Text value,
			Context context)
			throws IOException, InterruptedException {
		String line = value.toString();
		System.out.println(line);
		StringTokenizer token = new StringTokenizer(line, " ");
		String symb1 = token.nextToken();
		String symb2 = token.nextToken();
		
		context.write(new Text(symb1), new FloatWritable(Float.valueOf(symb2)));
	}
	
}

 3.Reduce

package com.mapReducce.test;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.io.FloatWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class Map extends Mapper<LongWritable, Text, Text, FloatWritable> {

	@Override
	protected void map(LongWritable key, Text value,
			Context context)
			throws IOException, InterruptedException {
		String line = value.toString();
		System.out.println(line);
		StringTokenizer token = new StringTokenizer(line, " ");
		String symb1 = token.nextToken();
		String symb2 = token.nextToken();
		
		context.write(new Text(symb1), new FloatWritable(Float.valueOf(symb2)));
	}
	
}

 

分享到:
评论

相关推荐

    Hadoop集群搭建部署与MapReduce程序关键点个性化开发.doc

    并通过Eclipse进行MapReduce程序的开发,步骤详细完整,在相关过程中配有完整代码和解释,全程无误,只需复制粘贴即可,小白新手按步骤一步一步来也能搭建Hadoop集群成功并进行MapReduce程序开发!!!喜欢请关注...

    Hadoop集群程序设计与开发

    《Hadoop集群程序设计与开发(数据科学与大数据技术专业系列规划教材)》系统地介绍了基于Hadoop的大数据处理和系统开发相关技术,包括初识Hadoop、Hadoop基础知识、Hadoop开发环境配置与搭建、Hadoop分布式文件系统、...

    Hadoop原理与技术MapReduce实验

    (1)熟悉Hadoop开发包 (2)编写MepReduce程序 (3)调试和运行MepReduce程序 (4)完成上课老师演示的内容 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 Hadoop环境 Jdk1.8 二、实验内容 1.单词计数实验...

    在Hadoop的MapReduce任务中使用C程序的三种方法

    Hadoop是一个主要由Java语言开发的项目,基于Hadoop的MapReduce程序也主要是使用Java语言来编写。但是有一些时候,我们需要在MapReduce程序中使用C语言、C++以及其他的语言,比如项目的开发人员更熟悉Java之外的语言...

    hadoop mapreduce

    hadoop mapreduce 开发,用eclipse开发的入门级程序。

    Hadoop系统安装运行与程序开发

    Hadoop系统安装运行与程序开发 1.单机Hadoop系统安装基本步骤 2.集群Hadoop系统安装基本步骤 3.Hadoop集群远程作业提交与执行 4.Hadoop MapReduce程序开发

    Windows下Eclispe远程开发Mapreduce程序

    Windows下Eclispe远程开发Mapreduce程序

    实验项目 MapReduce 编程

    MapReduceExample 下建立新包 com.xijing.mapreduce,模仿内置的 WordCount 示例,自己编写一个 WordCount 程序,最后打包成 JAR 形式并在 Hadoop 集群上运行该 MR-App,查看运行结果。 4 分别在自编 MapReduce 程序...

    Ch4-Hadoop系统安装运行与程序开发1

    1.单机Hadoop系统安装基本步骤 2.集群Hadoop系统安装基本步骤 3.Hadoop集群远程作业提交与执行 4.Hadoop MapReduce程序开发

    HadoopMapReduce:数据集链接的Hadoop MapReduce实践问题

    hadoop-MapReduce #Template减少边数据联接欺诈客户检测

    大数据课程-Hadoop集群程序设计与开发-4.MapReduce分布式计算框架_lk_edit.pptx

    大数据课程——Hadoop集群程序设计与开发,教师版,提供教学大纲、教案、教学设计、实训文档等,课程内容包含教学准备环境、软件安装、作业、教学文档、演示视频,花费巨额时间亲自制作,下载后可私信提供上述所有...

    【大数据入门笔记系列】第五节 SpringBoot集成hadoop开发环境(复杂版的WordCount)

    SpringBoot集成hadoop开发环境(复杂版的WordCount)前言环境清单创建SpringBoot项目创建包创建yml添加集群主机名映射hadoop配置文件环境变量HADOOP_HOME编写代码添加hadoop依赖jar包编译项目造数据IDEA远程提交...

    Hadoop大数据开发实战-教学大纲.pdf

    二、 课程的任务 通过本课程的学习,使学生学会搭建Hadoop完全分布式集群,掌握HDFS的原理和基础操作,掌握MapReduce原理架构、MapReduce程序的编写。为将来从事大数据挖掘研究工作以及后续课程的学习奠定基础。

    hadoop 1.2.1 api 最新chm 伪中文版

    Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。 一个Map/Reduce 作业(job) 通常会把输入的...

    HadoopMapReduce开发最佳实践

    MapRuduce开发对于大多数程序员都会觉得略显复杂,运行一个WordCount(Hadoop中helloword程序)不仅要熟悉MapRuduce模型,还要了解Linux命令(尽管有Cygwin,但在Windows下运行MapRuduce仍然很麻烦),此外还要学习...

    UDA:Hadoop MapReduce 的非结构化数据加速器 (RDMA)

    UDA Hadoop MapReduce 的非结构化数据加速器 (RDMA) UDA 是一种软件插件,可加速 Hadoop 网络并提高执行数据分析密集型应用程序的 Hadoop 集群的扩展性。 一种新颖的数据移动协议将 RDMA 与高效的归并排序算法结合...

    hadoop-3.3.4 版本(最新版)

    够让用户轻松地在 Hadoop 上开发和运行处理海量数据的应用程序。 Hadoop 架构有两个主要的组件:分布式文件系统 HDFS 和 MapReduce 引擎。 在 Hadoop 中,MapReduce 底层的分布式文件系统是独文模块,用户可按照约定...

    Hadoop与MapReduce分布式并行编程简介

    MapReduce 计算模型的开源分布式并行编程框架,有自己的分布式文件系统hdfs,借助于 Hadoop, 程序员可以轻松地编写分布式并行程序,将其运行于计算机集群上,完成海量数据的计算,目前由yahoo全力资助该开发团队以...

    Hadoop从入门到上手企业开发

    049 MapReduce编程模型讲解及运行PI程序和JobWebUI监控Job运行 050 如何按照【八股文】方式编写MapReduce 051 复习MapReduce编写模型和【八股文】方式编写MapReduce 052 完成MyWordCount程序编写 053 打包运行...

Global site tag (gtag.js) - Google Analytics