bit1129

浏览: 1051692 次
性别:
来自: 北京

最近访客更多访客>>

xiaoyaohen24

yuxin8000

abc951654

zhongqi2513

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式

博客分类：

Spark

Spark SQL数据源和表的Schema

case class
apply schema
parquet
json

JSON数据源

准备源数据

{"name":"Jack", "age": 12, "addr":{"city":"beijing",  "zipcode":"111"}}
{"name":"Todd", "age": 22, "addr":{"city":"shandong", "zipcode":"222"}}
{"name":"Ted", "age": 32, "addr":{"city":"hebei",     "zipcode":"333"}}

这是一个嵌套的person信息，每一行是一个完整的JSON数据串，Spark SQL在解析的时候，也是按照行进行读

在Spark Shell上执行如下操作，即可得到结果Jack和Ted。

///创建SQL对象，传入当前的SparkContext
scala> val sqlContext= new org.apache.spark.sql.SQLContext(sc) 

///从本地磁盘加载json数据，从本地磁盘读取必须显式的执行URL　Scheme;不指定则默认使用hdfs
scala> val jsonpeople = sqlContext.jsonFile("file:///home/hadoop/software/spark-1.2.0-bin-hadoop2.4/examples/src/main/resources/people2.json")

///注册临时表，所谓临时是指该表是跟当前的SQLContext绑定的，其它的Context看不到这个表
///表共享如何做？
scala> jsonpeople.registerTempTable("jsonTable")

///查询操作
scala> sqlContext.sql("SELECT name FROM jsonTable WHERE addr.zipcode = 111 or age >= 30").map(t => "Name: " + t(0)).collect().foreach(println)

可见，在Spark SQL操作JSON时，不需要因为RDD的隐式转换，因为这里没有RDD的隐式转换操作

val sqlContext= new org.apache.spark.sql.SQLContext(sc)

未完待续

分享到：

【Spark十七】： Spark SQL第三部分结合HI ... | 【Spark十五】Intellj Idea搭建Spark源代 ...

2015-01-10 12:07
浏览 2648
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式

Spark SQL数据源和表的Schema

case class

apply schema

parquet

json

JSON数据源

准备源数据

未完待续

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【Spark十六】： Spark SQL第二部分数据源和注册表的几种方式

Spark SQL数据源和表的Schema

case class

apply schema

parquet

json

JSON数据源

准备源数据

未完待续

评论

发表评论

相关推荐

【Spark109】Windows上运行spark-shell

【Spark108】Spark SQL动态代码生成四

【Spark107】Spark SQL动态代码生成三

【Spark106】Spark SQL动态代码生成二

【Spark105】Spark SQL动态代码生成一

【Spark105】Spark任务调度

【Spark104】Spark源代码构建打包

【Spark103】Task not serializable

【Spark102】Spark存储模块BlockManager剖析

【Spark101】Scala Promise/Future在Spark中的应用

【Spark100】Spark Streaming Checkpoint的一个坑

【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析

【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析

【Spark九十七】RDD API之aggregateByKey

【Spark九十六】RDD API之combineByKey

【Spark九十五】Spark Shell操作Spark SQL

【Spark九十四】spark-sql工具的使用

【Spark九十三】Spark读写Sequence File

【Spark九十二】Spark SQL操作Parquet格式的数据

【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题

最近访客更多访客>>