spark - DataFrame Api 练习 -

功夫小当家

浏览: 183697 次
性别:
来自: 北京

最近访客更多访客>>

aotianji1238

mangyulin

benleewindy

pengfei1410

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

spark - DataFrame Api 练习

博客分类：

spark

DataFrame Api 练习

DataFrame Api 练习（需要了解下functions.scala源码）

package df

import org.apache.spark.sql.SparkSession

object DataFrameDemo {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("DF_DEMO").master("local").getOrCreate()

    /**
      * 测试数据内容：
      * {"id":1,"name":"zhangsan"}
      * {"id":3,"name":"lisi"}
      * {"id":2,"name":"wangwu"}
      */

    val df = spark.read.json("file:///F:\\test\\1.json")
    //1.展示df的内容， show方法默认展示20行， 每列限制20个字符，超出就截断
    df.show()

    //2.打印schema
    df.printSchema()

    //3.查询id列 （如果id列不是schema里的列，会报错找不到列！！！）
    df.select("id").show()
    df.select(df("id")).show()

    //需要引入隐式转换
    import spark.implicits._
    df.select('id).show()
    df.select($"id").show()

    //4.group by （借助count转为DataFrame）
    df.groupBy("id").count().show()

    //5.使用sql的写法
    //createGlobalTempView会把表people_tbl建在global_temp数据库下
    df.createGlobalTempView("people_tbl")

    //查询时候要指定数据库global_temp， 否则会报错找不到表！！！
    //    spark.sql("select * from people_tbl").show()
    spark.sql("select * from global_temp.people_tbl").show()

    //global temp view在一个application的多个session中都可见！！！
    spark.newSession().sql("SELECT * FROM global_temp.people_tbl").show()

    //6.head从头取n个数据的Array
    df.head(2).foreach(println)

    //7.filter操作！！！
    /**
      * 输出结果：
      * +---+--------+
      * | id|    name|
      * +---+--------+
      * |  1|zhangsan|
      * |  3|    lisi|
      * +---+--------+
      */
    df.filter("name='lisi' or id=1").show()
    //name以w开头的
    df.filter("substr(name,0, 1)='w'").show()

    //8.sort默认是字典升序
    df.sort("name").show()
    //字典降序col.desc, 按照多列排序
    df.sort(df.col("name").desc, df.col("id").asc).show()

    //9.as别名
    /**
      * 输出结果：
      * +------+
      * |stu_id|
      * +------+
      * |     1|
      * |     3|
      * |     2|
      * +------+
      */
    df.select(df.col("id").as("stu_id")).show()

    //10.join操作(join 时候on的条件必须要使用 ===  连接 ！！！),join()的第三个参数指定连接方式
    /**
      * 输出结果
      * +---+--------+---+--------+
      * | id|    name| id|    name|
      * +---+--------+---+--------+
      * |  1|zhangsan|  1|zhangsan|
      * |  3|    lisi|  3|    lisi|
      * |  2|  wangwu|  2|  wangwu|
      * +---+--------+---+--------+
      */
    df.join(df, df.col("id") === df.col("id"), "inner").show()

    //11.orderBy 底层调用的是sort()
    df.orderBy().show()
    df.sort().show()

    //12.limit和head的区别
    /**
      * head  ：是一个action, 返回数组
      * limit ：返回一个 Dataset.
      **/
    df.head(2).foreach(println)
    df.limit(2).show()
  }
}

分享到：

spark -外部数据源 | spark - RDD转成DataFrame

2018-04-07 18:10
浏览 1392
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark - DataFrame Api 练习

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark - DataFrame Api 练习

评论

发表评论

相关推荐

spark - spark streaming

spark - 分区自动探测

spark -外部数据源

spark - RDD转成DataFrame

spark - Spark-sql， DataFrame，DataSet名词解释

spark - 性能优化指南(基础篇)

spark - sql开启thriftServer服务

spark kryo序列化

spark－rdd代码demo

spark - History Server配置

spark - 启动参数

spark - 核心概念

spark - 宽依赖和窄依赖

spark- RDD广播变量和计数器

spark - RDD持久化

spark - 启动优化之参数spark.yarn.archive 和 spark.yarn.jars

spark - 部署和安装

spark - RDD梳理

最近访客更多访客>>