package com.bjsxt.spark
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
/**
* 统计单词出现的次数。
*/
object WordCount {
def main(args: Array[String]): Unit = {
val conf = new SparkConf()
conf.setMaster("local")
conf.setAppName("wc")
val sc = new SparkContext(conf)
val lines:RDD[String] = sc.textFile("./words")//读取这个文件中的每一行
val words:RDD[String] = lines.flatMap(line=>{//把所有行的所有单词都取出来
line.split(" ")
})
val pairWords:RDD[(String, Int)] = words.map(word=>{new Tuple2(word,1)})//利用map的一对多的形式,输出格式为:第一个参数为每个单词,第二个参数是1。(String, Int)不是两个参数,其实表示一个tuple二元组
val result :RDD[(String, Int)] = pairWords.reduceByKey((v1:Int,v2:Int)=>{v1+v2})//分组:(v1:Int,v2:Int)中两个参数中,第一个参数是上次计算的数字,第二个参数是本个单词的1,然后相加
val end :RDD[(String, Int)] = result.sortBy(tuple=>{tuple._2},false)//分组后排序,按从大到小的顺序输出,false表示安装ask排序还是按desc排序
println("%%%%%");
end.foreach(tuple=>{
println(tuple)//打印输出
})
sc.stop()
/* val conf = new SparkConf().setMaster("local").setAppName("wc")
new SparkContext(conf).textFile("./words").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).foreach(println)
*/
}
}
- 浏览: 71046 次
- 性别:
- 来自: 天津
文章分类
最新评论
发表评论
-
spark11
2018-06-20 15:32 01.1 Spark1 ... -
oozie
2018-06-20 15:14 171. 简述 ... -
公司hive
2018-06-20 15:08 181. 简述 Hive ... -
大数据项目
2018-05-21 23:32 0抽象出四个步骤就是 ... -
scala2
2018-04-23 22:33 352actor:哎各特scala:死噶勒trait:tree得tu ... -
scala
2018-04-23 22:44 406<!--[if !mso]> <styl ... -
scala中的Akka通讯模型
2018-04-23 22:30 213package com.bjsxtimport scala.a ... -
hadooop
2018-04-22 23:24 568查看博客:http://blog.csdn.net/qq_2 ... -
kafka
2018-04-22 23:35 507一、Kafka简介 Kafka是一个分布式的消息队列系 ... -
zookerpeer
2018-04-22 23:35 9181. Zookeeper:攘其外必先安其内。攘其 ... -
jvm调优
2018-04-19 10:44 3201. 方法区又叫永久区,里面放的是.cl ... -
jvm调优
2018-04-19 10:55 0<!--[if !mso]> <styl ... -
jvm调优
2018-04-19 10:42 01. 方法区又叫永久区,里面放的是.cla ... -
java复习
2018-04-19 10:41 353第一:HashMap相关 1. 介绍hashs ... -
机器学习
2018-04-17 08:43 0第一:问题 1. ... -
hive
2018-04-17 08:40 290调优网站:https://www.cnblogs.com/s ... -
大数据集群搭建
2018-03-21 23:34 424NN-1 NN-2 ... -
hbase
2018-03-21 22:55 346第一:hbase介绍 1. HBase是列式存 ... -
hbase代码
2018-03-21 18:06 458package com.sxt.hbase; import ... -
hive
2018-03-21 18:17 379第一:Hive和关系型数据库的区别1.Hive将外部的任务解 ...
相关推荐
使用Scala设计WordCount程序 软件环境: hadoop-2.6.5.tar.gz spark-1.6.2-bin-hadoop2.6.tgz scala-2.10.4.gz scala-SDK-4.0.0-vfinal-2. 11-linux.gtk.x86_64.tar.gz
hadoop scala spark 例子项目,运行了单机wordcount
自己学习scala语言写的一个单词计数的例子,很好的用到了函数式编程思想,分享给大家共同学习。
scala语言和python一样都是交互式的语言,操作简单。这是wordcount的scala实现,简单明了,比java实现简单很多,希望对大家有所帮助
使用scala实现wordcount 基于Spark RDD 使用scala实现wordcount 基于Spark RDD 使用scala实现wordcount 基于Spark RDD
为了在IDEA中编写scala,今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀,学会之后,用起来很顺手。关于如何搭建scala和IDEA开发环境,请看文末的参考资料。用Scala和Java实现WordCount,其中Java实现的Java...
在Hadoop分布式集群和基于HDFS的spark分布式集群部署配置基础上进行Scala程序wordcount测试,环境分别是spark-shell和intelliJ IDEA 。
Eclipse+Maven+Scala Project+Spark | 编译并打包wordcount程序 学习用Eclipse+Maven来构建并打包一个简单的单词统计的例程。 第一步 在EclipseIDE中安装Scala插件 在Eclipse中安装Scala插件 第二步 创建Scala ...
博客配套文件,详细演示了本地和集群模式如何运行Spark程序,演示了一个简单wordCount程序流程。
本代码是spark学习的基础作业Wordcount ,代码简介明了,易于理解,对于初学者来说是一个很好的示例作用
一个基于Spring Boot的Spark开发手脚架(Java+Scala),开箱即用!模拟了1个WordCount
flink scala版的单词统计jar包,flink scala版的单词统计jar包,flink scala版的单词统计jar包
介绍 通过使用三种不同语言编写来编写分词及词频统计程序,比较在大数数据背景下,MapReduce和Spark对三种语言的适应性及其各自的效率对比;项目均采用IDEA+Maven进行构建,相关依赖均在对应pom.xml... wordCountScala
第四章Spark&Scala的集成开发环境的安装及运行,内容描述了spark版本问题修改、scala编程客户端的安装步骤及运行,已经scala的安装与运行
Scala Spark WordCount的实现如下 安 装 环 境: centOS 7,64位虚拟机 hadoop2.7.2 jdk1.8 scala 2.11.8 spark 2.1.1 on1是我的主机名 一、用idea创建一个Maven工程 在pom文件里的dependencies标签下添加依赖 ...
3.2.2.在spark shell中编写WordCount程序 1.首先启动hdfs 2.向hdfs上传一个文件到hdfs://hdp-01:9000/wordcount/input/a.txt 3.在spark shell中用scala语言编写spark程序 scala> sc.textFile("hdfs://hdp-01:...
leetcode算法题主函数如何写文件内容总览src/main/java/wordCountDemo/wordCountDemo.scala是使用scala写的wordcount程序src/main/java/wordcountJava/wordcount.java是使用java写的wordcount程序src/main/java/Api_...
input文件夹存放的是项目数据源;wordcount统计每个单词的总数;count和count1分别使用dataframe和rdd统计人口性别和身高;demo1最受欢迎的老师的问题;demo2多文件去重合并;demo3计算年度最高温度