要想让Hadoop做的工作有意义就需要耐人寻味的数据。大家可以到
http://www.nber.org/patents/上下载专利数据集。本文使用了专利引用数据集cite75_99.txt.
这个数据集约有250MB,虽然没有一个真正的集群,但这个数据量的数据足以让我们心情澎湃的去练习MapReduce。而且一个流行的开发策略是为生产环境中的大数据集建立一个较小的,抽样的数据子集,称为开发数据集。这样,我们以单机或者伪分布模式编写程序来处理它们时,就能很容易去运行并调试。
cite75_99.txt里面的内容如下所示:
每行有两个数字,代表前面的新专利引用了后面的专利。我准备实现两个M/R任务,首先统计每个以前的专利被哪几个新专利引用,然后统计每个以前的专利被引用了多少次。
一:统计每个以前的专利被哪几个新专利引用
不多说,直接上代码
:
public class Potent_ByWhichCitation extends Configured implements Tool {
public static class CitationMapper extends Mapper<Object, Text, Text, Text> {
@Override
protected void map(Object key, Text value,
Mapper<Object, Text, Text, Text>.Context context)
throws IOException, InterruptedException {
// 根据逗号拆分
String[] str = value.toString().split(",");
context.write(new Text(str[1]), new Text(str[0]));
}
}
public static class IntSumReducer extends Reducer<Text, Text, Text, Text> {
@Override
protected void reduce(Text key, Iterable<Text> values,
Reducer<Text, Text, Text, Text>.Context context)
throws IOException, InterruptedException {
String csv = "";
for (Text val : values) {
if (csv.length() > 0)
csv += ',';
csv += val.toString();
}
context.write(key, new Text(csv));
}
}
public static void main(String[] args) throws Exception {
int res = ToolRunner.run(new Configuration(), new Potent_ByWhichCitation(), args);
System.exit(res);
}
@Override
public int run(String[] args) throws Exception {
Configuration conf = new Configuration();
String[] otherArgs = new GenericOptionsParser(conf, args)
.getRemainingArgs();
if (otherArgs.length != 2) {
System.err.println("Usage: wordcount <in> <out>");
System.exit(2);
}
@SuppressWarnings("deprecation")
Job job = new Job(conf, "potent analyse");
job.setJarByClass(Potent_CountsByCitation.class);
job.setMapperClass(CitationMapper.class);
job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(Text.class);
FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
return 0;
}
}
代码很简单,就不解释了。运行我们可以直接在eclipse上点击Run Configurations然后添加输入输出文件夹,没有问题之后,然后Run on Hadoop,这样就能看到日志信息(当然要添加一个log4j.properties)。下面是counters信息和统计结果:
有强迫症的话就打包然后用命令行执行咯。
二:统计每个以前的专利被引用了多少次。
代码:
public class Potent_CountsByCitation {
public static class CitationMapper extends
Mapper<Object, Text, IntWritable, IntWritable> {
private final static IntWritable one = new IntWritable(1);
private IntWritable citation = new IntWritable();
@Override
protected void map(Object key, Text value,
Mapper<Object, Text, IntWritable, IntWritable>.Context context)
throws IOException, InterruptedException {
// 根据逗号拆分
String[] str = value.toString().split(",");
System.out.println(str[1]+" ");
citation.set(Integer.parseInt(str[1].toString()));
context.write(citation, one);
}
}
public static class IntSumReducer extends
Reducer<IntWritable, IntWritable, IntWritable, IntWritable> {
private IntWritable result = new IntWritable();
@Override
protected void reduce(
IntWritable key,
Iterable<IntWritable> values,
Reducer<IntWritable, IntWritable, IntWritable, IntWritable>.Context context)
throws IOException, InterruptedException {
int sum = 0;
for (IntWritable val : values)
sum += val.get();
result.set(sum);
context.write(key, result);
}
}
public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();
String[] otherArgs = new GenericOptionsParser(conf, args)
.getRemainingArgs();
if (otherArgs.length != 2) {
System.err.println("Usage: wordcount <in> <out>");
System.exit(2);
}
@SuppressWarnings("deprecation")
Job job = new Job(conf, "potent analyse");
job.setJarByClass(Potent_CountsByCitation.class);
job.setMapperClass(CitationMapper.class);
job.setCombinerClass(IntSumReducer.class);
job.setReducerClass(IntSumReducer.class);
job.setOutputKeyClass(IntWritable.class);
job.setOutputValueClass(IntWritable.class);
FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
System.exit(job.waitForCompletion(true) ? 0 : 1);
}
}
直接上结果:
这还是很简单的M/R,但是拿来入门还是很不错的。
- 大小: 98.1 KB
- 大小: 134.3 KB
- 大小: 83.5 KB
- 大小: 18.9 KB
分享到:
相关推荐
Hadoop分析气象数据完整版源代码(含Hadoop的MapReduce代码和SSM框架) 《分布式》布置了一道小作业,这是作业的所有代码,里面包含了Hadoop的MapReduce代码、和SSM框架显示数据的代码
针对本次实验,我们需要用到Hadoop集群作为模拟大数据的分析软件,集群环境必须要包括,hdfs,hbase,hive,flume,sqoop等插件,最后结合分析出来的数据进行可视化展示,需要用到Python(爬取数据集,可视化展示)...
Hadoop豆瓣电影数据分析(Hadoop)操作源码
是大数据课程大作业,基于Hadoop的电影影评数据分析,需要安装Hadoop,了解MapReduce 和HDFS。
Hadoop电影数据集,包含字段说明
2022毕业设计,基于 Hadoop 的游戏数据分析系统源码.zip
《分布式》布置了一道小作业,这是作业的所有代码,里面包含了Hadoop的MapReduce代码、和SSM框架显示数据的代码,有缺失私我,,,1积分吧哈哈。
hadoop实战 专利测试数据集
Hadoop (十)Hadoop-第一次使用eclipse&java&hadoop分析简单数据 请配合下方博客使用 http://blog.csdn.net/jintaohahahaha/article/details/76599299
hadoop权威指南de数据集. A sample of the NCDC weather dataset that is used throughout the book can be found at https://github.com/tomwhite/hadoop-book/tree/master/input/ncdc/all. and another one : ...
基于Hadoop网站流量日志数据分析系统 1、典型的离线流数据分析系统 2、技术分析 - Hadoop - nginx - flume - hive - mysql - springboot + mybatisplus+vcharts nginx + lua 日志文件埋点的 基于Hadoop网站流量...
基于Hadoop数据分析系统设计(需求分析).docx 随着云时代的来临,大数据也吸引越来越多的关注,企业在日常运营中生成、积累的用户网络行为数据。这些数据是如此庞大,计量单位通常达到了PB、EB甚至是ZB。Hadoop作为一...
毕业设计,基于 Hadoop 的游戏数据分析系统毕业设计,基于 Hadoop 的游戏数据分析系统毕业设计,基于 Hadoop 的游戏数据分析系统毕业设计,基于 Hadoop 的游戏数据分析系统毕业设计,基于 Hadoop 的游戏数据分析系统...
数据分析R,英文版。主要说明R和hadoop结合起来处理大数据。
针对数据分析介绍分布式计算涉及的大量概念、工具和技术,纵览Hadoop生态系统。
针对本次实验,我们需要用到Hadoop集群作为模拟大数据的分析软件,集群环境必须要包括,hdfs,hbase,hive,flume,sqoop等插件,最后结合分析出来的数据进行可视化展示,需要用到Python(爬取数据集,可视化展示)...
本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。...两个日志文件,一共有200MB,符合大数据量级,可以作为推荐系统数据集和hadoop测试集。
这是一个Eclipse中复制出来的MapReduce工程文件,如果你下载了源代码,需要部署在Linux环境下的Eclipse中,并且,这个Eclipse必须已经安装了hadoop开发插件,能够做Hadoop开发。不然,会提示找不到hadoop开发包。
基于Hadoop大数据平台对某网站的外卖订单数据进行分析,分析结果进行可视化展示
基于Hadoop的地震数据分析统计.rar