import org.apache.spark.sql.SQLContext
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.types._
import spark.implicits._
import org.apache.spark.sql.functions.udf
import org.apache.spark.sql._
object Run {
def main(args: Array[String]) {
val conf = new SparkConf().setAppName("test").setMaster("local")
val sc = new SparkContext(conf)
sc.setLogLevel("WARN")
val sqlContext = new SQLContext(sc)
/**
* id age
* 1 30
* 2 29
* 3 21
*/
case class Person(id: Int, age: Int)
val idAgeRDDPerson = sc.parallelize(Array(Person(1, 30), Person(2, 29), Person(3, 21)))
// 优点1
// idAge.filter(_.age > "") // 编译时报错, int不能跟String比
// 优点2
idAgeRDDPerson.filter(_.age > 25) // 直接操作一个个的person对象
}
}
val spark = SparkSession
.builder()
.appName("SparkSessionZipsExample")
.config("spark.sql.warehouse.dir", warehouseLocation)
.enableHiveSupport()
.getOrCreate()
-------------------------------------
scala> val numDS = spark.range(5, 100, 5)
numDS: org.apache.spark.sql.Dataset[Long] = [id: bigint]
scala> numDS.orderBy(desc("id")).show(5)
+---+
| id|
+---+
| 95|
| 90|
| 85|
| 80|
| 75|
+---+
only showing top 5 rows
scala> numDS.describe().show()
+-------+------------------+
|summary| id|
+-------+------------------+
| count| 19|
| mean| 50.0|
| stddev|28.136571693556885|
| min| 5|
| max| 95|
+-------+------------------+
scala> val langPercentDF = spark.createDataFrame(List(("Scala", 35),
| ("Python", 30), ("R", 15), ("Java", 20)))
langPercentDF: org.apache.spark.sql.DataFrame = [_1: string, _2: int]
scala> val lpDF = langPercentDF.withColumnRenamed("_1", "language").withColumnRenamed("_2", "percent")
lpDF: org.apache.spark.sql.DataFrame = [language: string, percent: int]
scala> lpDF.orderBy(desc("percent")).show(false)
+--------+-------+
|language|percent|
+--------+-------+
|Scala |35 |
hadoop 状态查看地址:http://192.168.1.101:8088/
spark 状态查看地址:http://192.168.1.101:8082/
分享到:
相关推荐
随心所欲 与AWS上的spark-on-k8s运算符一起使用的...将IAM角色用于EKS上的服务帐户创建角色和服务帐户创建驱动程序的AWS角色为执行者创建AWS角色在spark作业名称空间中为执行者添加默认服务帐户EKS角色(可选) # NOTE:
#Spark SQL HBase Connector##----------------Note: This Project is Deprecated---------------##--------------And This Project is Not Maintained---------------Spark SQL HBase Connector aim to query HBase...
火花源代码学习笔记
有关详细信息,请参见note。 在项目的根目录下,运行spark-shell -i wfp.scala ,结果将保存在文件rule_sets.txt中。 buildWin.scala是一个窗口定位算法。 它告诉事件将在哪个时间窗口中取决于事件的发生时间。 ...
Note anything during writing spark or scala python php golang gopher bigdata hadoop review 大数据 面试 面试题 大数据面试题 作者在Github的博客列表 本系列文档基于Spark 1.5-Hadoop 2.6撰写。 如果没有特殊...
HanShu-Note 叮叮叮铛,韩数的学习笔记(哆啦A梦配音) 大家好,我是韩数,这里收录了我的大多数学习笔记,包括Nginx,JAVA,Springboot,SpringCloud,Docker等后端常用的技术,大多数文章都经过markdown精心排版,...
isarn-sketches-spark 在Apache Spark中惯用地使用isarn-sketches的例程和数据结构API文档如何在您的项目中使用 // Note that the version of spark is part of the release name.// This example is for spark 3.0:...
Note that for the generic terms spark and graphs we had to substitute the overly spe- cific Apache Spark and edges and vertices, but the trends can still be seen. A couple of these technologies, ...
word源码java 目录 Algorithm Princeton Stanford 其他 剑指Offer 大数据算法 CS61B Java Head First Java Head First设计模式 ...Spark OS Unix 操作系统概念 计算机网络 深入理解计算机系统 Labs
护手用于兼容性测试的生产者和消费者的 Apache Kafka 测试框架#先决条件Spark二进制文件主节点卡夫卡动物园管理员卡桑德拉#Note 此包仅用于在 Mesos 下使用。 #用法示例: ./gradlew jar./run.sh --name dataset --...
七月在线七月在线## Note, this file is written by cloud-init on first boot of an instance
BigdataNote -----------欢迎访问------------ 我的个人博客: 我的个人公众号:GoAl分享 大数据优秀博客推荐: 过往记忆大数据博客: 董西城博客: lwx的数据田地: 美团技术团队: 林子雨厦门大学实验室: ...
HADOOP-COS功能说明Hadoop-COS实现了以腾讯云 COS 作为底层文件系统运行上层计算任务的功能,支持使用Hadoop、Spark以及Tez等处理存储在腾讯云COS对象存储系统上的数据。使用限制只适用于 COS V5 版本使用环境系统...
todesk-v4.3.1.0-amd64.deb
Spark从基础到实战 note@htfeng spark学习笔记 目录
:dollar_banknote: 分布式 :floppy_disk: Zookeeper :oncoming_fist: RPC :artist_palette: Netty :laptop: Linux Java基础 NIO 并发容器 JVM 分布式 zookeeper RPC Netty Linux 大数据框架学习...
目录介绍 Spark Streaming实时流处理项目实战 本课程从实时数据产生和流向的各个环节出发,通过集成主流的分布式日志收集框架Flume、分布式消息队列Kafka、分布式列式数据库HBase、 ...3 note:对应的章节笔记
diamondsrubies.emeraldsand so onBeside the panel is a row of ...Note that if there is a tie between the most common type of gem(iethere are equal numbers)then more than one button will need to be ...
我的笔记 本项目迁移至-notes 环境 学习资源 ... spark机器学习 水槽 水槽 闪烁 闪烁 核心java java基础 第三者 非本人笔记内容 卡夫卡 卡夫卡 动物园管理员 动物园管理员 关于我 网站: : 电子邮件:
office--Note 邮件管理 性能优化 分层优化 系统级别 中间件级别 JVM级别 代码级别 分段优化 前端 web应用 服务应用 资源池 数据库 大数据与nosql zookeeper hadoop hbase mongodb strom spark ...