scala中的wordcount - 飞天小神猪 - ITeye博客

`

天津店小二

浏览: 71046 次
性别:
来自: 天津

最近访客更多访客>>

佛挡杀佛萨达

cxykyw-2

zhyly101

roqingyou

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

scala中的wordcount

博客分类：

大数据

阅读更多

package com.bjsxt.spark

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
/**
* 统计单词出现的次数。
*/
object WordCount {
def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local")
    conf.setAppName("wc")
    val sc = new SparkContext(conf)
    val lines:RDD[String] = sc.textFile("./words")//读取这个文件中的每一行
    val words:RDD[String] = lines.flatMap(line=>{//把所有行的所有单词都取出来
      line.split(" ")
    })
    val pairWords:RDD[(String, Int)] = words.map(word=>{new Tuple2(word,1)})//利用map的一对多的形式，输出格式为：第一个参数为每个单词，第二个参数是1。(String, Int)不是两个参数，其实表示一个tuple二元组
    val result :RDD[(String, Int)] = pairWords.reduceByKey((v1:Int,v2:Int)=>{v1+v2})//分组：(v1:Int,v2:Int)中两个参数中，第一个参数是上次计算的数字，第二个参数是本个单词的1，然后相加
    val end :RDD[(String, Int)] = result.sortBy(tuple=>{tuple._2},false)//分组后排序，按从大到小的顺序输出，false表示安装ask排序还是按desc排序
    println("%%%%%");
    end.foreach(tuple=>{
      println(tuple)//打印输出
    })
    sc.stop()


   /* val conf = new SparkConf().setMaster("local").setAppName("wc")
    new SparkContext(conf).textFile("./words").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).sortBy(_._2,false).foreach(println)
    */
}
}

分享到：

scala | scala2

2018-04-23 22:42
浏览 384
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

使用Scala设计WordCount程序: 使用Scala设计WordCount程序软件环境: hadoop-2.6.5.tar.gz spark-1.6.2-bin-hadoop2.6.tgz scala-2.10.4.gz scala-SDK-4.0.0-vfinal-2. 11-linux.gtk.x86_64.tar.gz

hadoop scala spark 例子项目，运行了单机wordcount: hadoop scala spark 例子项目，运行了单机wordcount

scala写的第一个wordcount例子: 自己学习scala语言写的一个单词计数的例子，很好的用到了函数式编程思想，分享给大家共同学习。

spark框架中wordcount的scala实现: scala语言和python一样都是交互式的语言，操作简单。这是wordcount的scala实现，简单明了，比java实现简单很多，希望对大家有所帮助

大数据分析课程作业 zip: 使用scala实现wordcount 基于Spark RDD 使用scala实现wordcount 基于Spark RDD 使用scala实现wordcount 基于Spark RDD

Spark：用Scala和Java实现WordCount: 为了在IDEA中编写scala，今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀，学会之后，用起来很顺手。关于如何搭建scala和IDEA开发环境，请看文末的参考资料。用Scala和Java实现WordCount，其中Java实现的Java...

基于HDFS的spark分布式Scala程序测试: 在Hadoop分布式集群和基于HDFS的spark分布式集群部署配置基础上进行Scala程序wordcount测试，环境分别是spark-shell和intelliJ IDEA 。

Spark-wordcount:spark wordcount示例| 在Eclipse + Maven + Scala Project + Spark中构建: Eclipse+Maven+Scala Project+Spark | 编译并打包wordcount程序学习用Eclipse+Maven来构建并打包一个简单的单词统计的例程。第一步在EclipseIDE中安装Scala插件在Eclipse中安装Scala插件第二步创建Scala ...

Spark 最简单WordCount: 博客配套文件，详细演示了本地和集群模式如何运行Spark程序，演示了一个简单wordCount程序流程。

WordCount.scala: 本代码是spark学习的基础作业Wordcount ,代码简介明了，易于理解，对于初学者来说是一个很好的示例作用

一个基于Spring Boot的Spark开发手脚架（Java+Scala），开箱即用！模拟了1个WordCount.zip: 一个基于Spring Boot的Spark开发手脚架（Java+Scala），开箱即用！模拟了1个WordCount

WordCount.jar: flink scala版的单词统计jar包,flink scala版的单词统计jar包,flink scala版的单词统计jar包

基于Python Java Scala语言的MapReduce及Spark分词及词频统计效率对比: 介绍通过使用三种不同语言编写来编写分词及词频统计程序，比较在大数数据背景下，MapReduce和Spark对三种语言的适应性及其各自的效率对比；项目均采用IDEA+Maven进行构建，相关依赖均在对应pom.xml... wordCountScala

第四章Spark&Scala的集成开发环境.docx: 第四章Spark&Scala的集成开发环境的安装及运行，内容描述了spark版本问题修改、scala编程客户端的安装步骤及运行，已经scala的安装与运行

WordCount的实现如下: Scala Spark WordCount的实现如下安装环境： centOS 7,64位虚拟机 hadoop2.7.2 jdk1.8 scala 2.11.8 spark 2.1.1 on1是我的主机名一、用idea创建一个Maven工程在pom文件里的dependencies标签下添加依赖 ...

spark集群安装: 3.2.2.在spark shell中编写WordCount程序 1.首先启动hdfs 2.向hdfs上传一个文件到hdfs://hdp-01:9000/wordcount/input/a.txt 3.在spark shell中用scala语言编写spark程序 scala> sc.textFile("hdfs://hdp-01:...

leetcode算法题主函数如何写-bigData:《三部曲》: leetcode算法题主函数如何写文件内容总览src/main/java/wordCountDemo/wordCountDemo.scala是使用scala写的wordcount程序src/main/java/wordcountJava/wordcount.java是使用java写的wordcount程序src/main/java/Api_...

关于scala项目spark.zip: input文件夹存放的是项目数据源；wordcount统计每个单词的总数；count和count1分别使用dataframe和rdd统计人口性别和身高；demo1最受欢迎的老师的问题；demo2多文件去重合并；demo3计算年度最高温度

Global site tag (gtag.js) - Google Analytics