wordcount
package com.baoy.worldcount import org.apache.spark.{SparkConf, SparkContext} /** * Created by cmcc-B100036 on 2016/4/1. */ object WordCount { def main(args: Array[String]) { if(args.length == 0) { println("usage: wordcount <file>") System.exit(1) } val conf = new SparkConf ().setAppName("wordcount") val sc = new SparkContext(conf) sc.textFile(args(0)) .flatMap(_.split(" ")) .map(x => (x, 1)) .reduceByKey(_ + _) .foreach(println) sc.stop() } }
pom
<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.4.1</version> <scope>provided</scope> </dependency>
准备原始数据
在 /home/cloudera/baoyou/data/log
创建文件 wordcount.log
在 hdfs 上创建 /data 路径
hdfs dfs -mkdir /data
上传 wordcount.log 到data路径
hdfs dfs -put wordcount.log /data/
运行 本地 spark-submit
spark-submit --class com.baoy.worldcount.WordCount --master local /home/cloudera/baoyou/project/SparkDemo.jar /data/wordcount.log
运行结果:
捐助开发者
在兴趣的驱动下,写一个免费
的东西,有欣喜,也还有汗水,希望你喜欢我的作品,同时也能支持一下。 当然,有钱捧个钱场(右上角的爱心标志,支持支付宝和PayPal捐助),没钱捧个人场,谢谢各位。
谢谢您的赞助,我会做的更好!
相关推荐
采用java实现的spark的wordcount单词技术的程序.可以跑通。
在spark上运行wordcount程序,可以进行单词计数
博客配套文件,详细演示了本地和集群模式如何运行Spark程序,演示了一个简单wordCount程序流程。
亲自测试的
基于Spark的wordcount代码
本例子是让新手熟悉了解如果用idea开发程序,提交到spakr集群上读取hdfs数据这么一个流程。博客讲解链接:https://blog.csdn.net/cuicanxingchen123456/article/details/83573838
下载资料后,免费获取数据集和jar包
scala语言和python一样都是交互式的语言,操作简单。这是wordcount的scala实现,简单明了,比java实现简单很多,希望对大家有所帮助
spark local下 WordCount运行示例,maven项目,直接导入eclipse即可
大数据实验报告Windows环境下安装Spark及RDD编程和Spark编程实现wordcount.doc
hadoop scala spark 例子项目,运行了单机wordcount
使用Spark实现对一个文档中的每一行的单词进行词配对计数,要求去标点符号,将大写符号统一转化成为小写单词。
一、实验目的 1. 理解Spark编程思想; 2. 学会在Spark Shell中编写Scala程序; 3. 学会在Spark Shell中运行Scala程序。 二、实验环境 Windows 10 VMware Workstation Pro虚拟机 ...(二)spark运行wordcount程序
1.每个实验单元在 50 页的篇幅内完成一份报告 3.实验报告要求:书写工整规范,语言表达清楚,数据和程序真 4.参加实验的每位同学应独立完成实验报告的撰写,其
创建SparkContext WordCount程序
Eclipse+Maven+Scala Project+Spark | 编译并打包wordcount程序 学习用Eclipse+Maven来构建并打包一个简单的单词统计的例程。 第一步 在EclipseIDE中安装Scala插件 在Eclipse中安装Scala插件 第二步 创建Scala ...
代码实现了 MapReduce的 WordCount,演示了MapReduce的基本编程模型,并且pom.xml也已经配置好,eclispse和IDEA皆可使用,JDK版本1.7即可。
使用Scala设计WordCount程序 软件环境: hadoop-2.6.5.tar.gz spark-1.6.2-bin-hadoop2.6.tgz scala-2.10.4.gz scala-SDK-4.0.0-vfinal-2. 11-linux.gtk.x86_64.tar.gz
最详细hadoop配置教程!centos下完美运行wordcount程序,从无到有,初学者必备!我自己亲自试了一遍并加以修改,准确无误~