Spark SQL数据源和表的Schema
-
case class
-
apply schema
-
parquet
-
json
JSON数据源
准备源数据
{"name":"Jack", "age": 12, "addr":{"city":"beijing", "zipcode":"111"}} {"name":"Todd", "age": 22, "addr":{"city":"shandong", "zipcode":"222"}} {"name":"Ted", "age": 32, "addr":{"city":"hebei", "zipcode":"333"}}
这是一个嵌套的person信息,每一行是一个完整的JSON数据串,Spark SQL在解析的时候,也是按照行进行读
在Spark Shell上执行如下操作,即可得到结果Jack和Ted。
///创建SQL对象,传入当前的SparkContext scala> val sqlContext= new org.apache.spark.sql.SQLContext(sc) ///从本地磁盘加载json数据,从本地磁盘读取必须显式的执行URL Scheme;不指定则默认使用hdfs scala> val jsonpeople = sqlContext.jsonFile("file:///home/hadoop/software/spark-1.2.0-bin-hadoop2.4/examples/src/main/resources/people2.json") ///注册临时表,所谓临时是指该表是跟当前的SQLContext绑定的,其它的Context看不到这个表 ///表共享如何做? scala> jsonpeople.registerTempTable("jsonTable") ///查询操作 scala> sqlContext.sql("SELECT name FROM jsonTable WHERE addr.zipcode = 111 or age >= 30").map(t => "Name: " + t(0)).collect().foreach(println)
可见,在Spark SQL操作JSON时,不需要因为RDD的隐式转换,因为这里没有RDD的隐式转换操作
val sqlContext= new org.apache.spark.sql.SQLContext(sc)
未完待续
相关推荐
Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。 Spark SQL的默认数据源为Parquet...
Apache Spark的XML数据源 一个用于使用解析和查询XML数据的库,用于Spark SQL和DataFrames。 结构和测试工具大部分是从复制的。 该软件包支持以分布式方式处理无格式的XML文件,这与Spark中的JSON数据源限制嵌入式...
Databrciks工程师,Spark Committer,Spark SQL主要开发者之一的连城详细解读了“Spark SQL结构化数据分析”。他介绍了Spark1.3版本中的很多新特性。重点介绍了DataFrame。其从SchemaRDD演变而来,提供了更加高层...
spark学习 Spark: Cluster Computing withWorking Sets Matei
Spark SQL 详细介绍 实验介绍 有需要的尽快下载吧
Spark: svn co http://svn.igniterealtime.org/svn/repos/spark/trunk spark 辛辛苦苦从SVN上下载下来的SOURCE Spark 2.6.3 Spark: spark/trunk part002 第二部分
Spinach:基于Spark SQL实现即席查询.pdf
Learning Spark SQL 英文epub 本资源转载自网络,如有侵权,请联系上传者或csdn删除 本资源转载自网络,如有侵权,请联系上传者或csdn删除
课时2:Spark2集群安装 课时3:Spark RDD操作 课时4:SparkRDD原理剖析 课时5:Spark2sql从mysql中导入 课时6:Spark1.6.2sql与mysql数据交互 课时7:SparkSQL java操作mysql数据 课时8:Spark统计用户的收藏转换...
Spark零基础思维导图(内含spark-core ,spark-streaming,spark-sql),总结的很全面。 Spark零基础思维导图(内含spark-core ,spark-streaming,spark-sql)。 Spark零基础思维导图(内含spark-core ,spark-streaming,...
mongodb-spark官方连接器,运行spark-submit --packages org.mongodb.spark:mongo-spark-connector_2.11:1.1.0可以自动下载,国内网络不容易下载成功,解压后保存到~/.ivy2目录下即可。
Spark-SQL外部数据源.md
Spark SQL 2.3.0:深入浅出,看了下,还行,希望对大家有帮助
Spark: svn co http://svn.igniterealtime.org/svn/repos/spark/trunk spark 辛辛苦苦从SVN上下载下来的SOURCE Spark 2.6.3 Spark: spark/trunk part003 第三部分
1. 解压Spark安装包 2. 配置Spark环境变量 2. 修改 spark-env.sh 文件,完成以下设置: 1. 设置运行master进程的节点, e
spark源码:spark-master.zip。方便不能登录GitHub的小伙伴下载。如果实在需要留言,可以私下给。
Spark: svn co http://svn.igniterealtime.org/svn/repos/spark/trunk spark 辛辛苦苦从SVN上下载下来的SOURCE Spark 2.6.3 Spark: spark/trunk part001 第一部分
High Performance Spark: Best Practices for Scaling and Optimizing Apache Spark by Holden Karau English | 25 May 2017 | ASIN: B0725YT69J | 358 Pages | AZW3 | 3.09 MB Apache Spark is amazing when ...
实训指导书_使用Spark SQL进行法律服务网站数据分析.zip
课时2:Spark2集群安装 课时3:Spark RDD操作 课时4:SparkRDD原理剖析 课时5:Spark2sql从mysql中导入 课时6:Spark1.6.2sql与mysql数据交互 课时7:SparkSQL java操作mysql数据 课时8:Spark统计用户的收藏转换...