用python编写MapReduce - soledede - ITeye博客

`

wbj0110

浏览: 1553757 次
性别:
来自: 上海

最近访客更多访客>>

一往无前bhz

ninja2006

loginboot

u012363178

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

wahahachuang5： web实时推送技术使用越来越广泛，但是自己开发又太麻烦了，我觉 ...
使用 HTML5 WebSocket 构建实时 Web 应用
秦时明月黑：
Jetty 服务器架构分析
chenghaitao111111：楼主什么时候把gecko源码分析一下呢，期待
MetaQ技术内幕——源码分析(转)
qqggcc：为什么还要写代码啊，如果能做到不写代码就把功能实现就好了
快速构建--Spring-Boot (quote)
yongdi2：好厉害！求打包代码
Hadoop日志文件分析系统

用python编写MapReduce

博客分类：

Python
MapReduce.Hadoop

用python编写MapReduce Hadoop Mapreduce

阅读更多

vi mapper.py

输入：

#!/usr/bin/env python

importsys

for linein sys.stdin:

line= line.strip()

words= line.split()

forword in words:

print'%s\t%s' % (word,1)

chmod +x mapper.py

vi reducer.py

输入：

#!/usr/bin/envpython

from operator import itemgetter

import sys

current_word = None

current_count = 0

word = None

for line in sys.stdin:

line = line.strip()

word, count =line.split('\t', 1)

try:

count =int(count)

except ValueError:

continue

if current_word ==word:

current_count+= count

else:

ifcurrent_word:

print'%s\t%s' % (current_word, current_count)

current_count= count

current_word= word

if current_word:

print'%s\t%s' % (current_word, current_count)

chmod +x reducer.py

本地操作系统测试：

echo "foo fooquux labs foo bar quux" | ./mapper.py | sort | ./reducer.py

提交HADOOP集群运行：

hadoop jar hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar -input input -output output-streaming-python -mapper /home/ysc/mapper.py -reducer /home/ysc/reducer.py

分享到：

linux 查找目录或文件 | How to get thread dump in linux using js ...

2013-11-01 08:40
浏览 665
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

python 实现mapreduce词频统计: python实现mapreduce词频统计执行方式：打开cmd命令，cd到代码所在文件夹，输入python wordcout_map.py > words.txt | sort | python wordcout_reduce.py执行

Python执行MapReduce测试: Python执行MapReduce测试，python编写map和reduce程序，并验证测试

使用hadoop-streaming运行Python编写的MapReduce程序.rar: 使用hadoop-streaming运行Python编写的MapReduce程序.rar

hadoop-python-mapreduce:有关如何使用Python运行Hadoop MapReduce的教程: Hadoop和Python的Mapreduce 关于如何使用Python和Hadoop执行MapReduce的一小段回购。映射器和化简器都是用Python编写的。有关如何在Hadoop中实现这两个脚本的教程位于。

hadoop运行python编写的mapreduce程序: 利用hadoop-streaming框架运行python脚本指令

HadoopStreamingPythonDemo:一个使用Hadoop流和Python编写MapReduce程序的演示: HadoopStreamingPython演示这是使用Hadoop流和Python实现“字数统计”示例的经典演示。 runStreaming.sh运行hadoop2.5.2流jar。 testLocally.sh使用本地Linux排序和管道工具测试映射器和化简器。

基于Python Java Scala语言的MapReduce及Spark分词及词频统计效率对比: 通过使用三种不同语言编写来编写分词及词频统计程序，比较在大数数据背景下，MapReduce和Spark对三种语言的适应性及其各自的效率对比；项目均采用IDEA+Maven进行构建，相关依赖均在对应pom.xml中给出；软件架构 ...

基于MapReduce的学生平均成绩统计: 利用MapReduce实现了求学生成绩的最大值，最小值，及成绩分布。结合我的博客“MapReduce之学生平均成绩”看，效果更好。

python编写MR: 博客配套文件，演示了借助hadoop streaming编写hadoop mapreduce程序。

Hadoop_Streaming_R_NodeJS_PY: Python 编写 MapReduce 程序教程。但是，由于 Brew，配置存在一些差异。我还想用 NodeJS 测试它。因此，如果您遵循在 Mavericks 上安装 Hadoop 教程，那么这就是您执行 Hadoop 流的方式。 ##配置HADOOP_HOME 打开...

Python示例-从基础到高手PDF: 第 19 章使用 python 构建基于 hadoop 的 mapreduce 日志分析平台第 20 章报警监控平台扩展功能 url 回调的设计及应用 [python 语言] 第 21 章服务端 socket 开发之多线程和 gevent 框架并发测试[python 语言]...

waldorf:Waldorf是用Python编写的高效，并行任务执行框架: Waldorf是用Python编写的高效并行任务执行框架。它是为在中国北京研究算法而开发的。 Waldorf基于，并以芹菜为原料，从得名。它可以通过在多台计算机上分布以Python函数编写的并发子任务并自动输出集合来加快诸如...

第5章 MapReduce分布式计算框架 2 5.1. MapReduce简介 2 5.2. wordcount经典案例介绍 2: 第5章 MapReduce分布式计算框架 2 5.1. MapReduce简介 2 5.2. wordcount经典案例介绍 2 ...Hadoop支持多种语言进行MapReduce编程，包括java、Python和C++等。本章从实战的角度出发，使用java编程语言通过

remap:python中的MapReduce平台: Remap主要是用纯python编写的，除了专门用于“顶点”任务的代理。该平台会确定是否以及有多少个节点和核心可用于运行您的算法。这种工作方式是，您拥有一个带有map / reduce或vertex函数的python脚本文件，该文件...

MapReduce: 您将使用MapReduce为每个城市提供该城市中的星巴克数量。输入是一个csv文件starbucks-locations.csv，输出应该是一个文件cityInformation，其中每行代表一个城市以及该城市中的星巴克数量。第2部分：倒排索引您...

mrEnsemble:Python中基于MapReduce的Ensemble培训: mrEnsemble mrEnsemble是用于分布式机器学习的环境，它允许轻松创建和部署适用于任意仲裁方法的集合。目标是拥有一个方便的工具来分析聚合统计模型... 该项目是使用MrJob用Python编写的。 AWS的教育补助金支持该工作。

python大数据-为什么Python编程非常适合大数据？.pdf: 访问HDFS API Pydoop软件包(Python和Hadoop)使您可以访问Hadoop的HDFS API，从⽽可以编写Hadoop MapReduce程序和应⽤程序。HDFSAPI 对您有何好处？所以，你去。 HDFS API使您可以轻松地在⽂件，⽬录和全局⽂件系统...

hadoop-python-hive-tutorial:将 Hadoop 与 Python 和 Hive 结合使用的教程: 在 python 中为 Hadoop 编写 MapReduce 程序，并使用 Hive 使用类似 SQL 的查询执行 MapReduce 的教程。这使用带有 python 的 Hadoop Streaming API 来教授使用 MapReduce 框架的基础知识。主要思想和结构基于。...

大数据期末大作业-Java岗位数据大屏分析，集成SpringBoot+JPA+Python+Vue2+Echarts: Python用于编写爬虫代码。项目还包含方案设计图、Word报告和SQL文件。方案设计图展示了项目的整体架构和流程；Word报告详细介绍了项目的背景、需求、设计和实现过程；SQL文件包含了数据库的结构和初始化数据，方便...

IntroToHadoopAndMR__Udacity_Course:Udacity课程“ Hadoop和MapReduce简介”作业的源代码-java source code: 但是他们在课程中主要使用/教授了使用Python Hadoop MapReduce作业（即使用Hadoop Streaming方法来运行作业）。我已经为2种编程语言中的2个问题陈述（每个3个问题）开发了Hadoop MapReduce代码； Python和Java 。...

Global site tag (gtag.js) - Google Analytics