spark SQL入门
进化: hive --> shark --> spark sql
hive--底层依赖于 MR --给熟悉sql的人用的
shark -- 依赖于hive sql解析器等 比hive快一个数量级
spark sql :
1、多数据源支持 : Hive RDD JSON JDBC
2、多种性能优化技术:
2.1 内存列存储
2.2 字节码生成技术
2.3 scala代码编写的优化
3、组件扩展:
dataFrame: 以列的方式组织
入口 : SQLContext 、HiveContext
public static void main(String[] args) { SparkConf conf = new SparkConf().setMaster("local").setAppName("DataFramCreate"); JavaSparkContext sc = new JavaSparkContext(conf); SQLContext sqlContext = new SQLContext(sc); DataFrame json = sqlContext.read().json("d://json.txt"); json.printSchema(); //desc talbe json.show();// select * from json.select("id").show();// select id from json.select(json.col("id"),json.col("age").plus(100)).show();//可以对列进行计算 json.filter(json.col("age").gt(25)).show();//过滤 json.filter(json.col("age").gt(25)).select(json.col("id"),json.col("age").plus(100)).show();// select where json.groupBy(json.col("age")).count().show();// group by }
相关推荐
spark-streamispark-streaming和spark-sql笔记文档。spark-streaming和spark-sql笔记文档。ng和spark-sql笔记文档。
spark学习笔记,包含spark SQL 在spark-shell的操作笔记
Spark 学习之路,包含 Spark Core,Spark SQL,Spark Streaming,Spark mllib 学习笔记 * [spark core学习笔记及代码 * [spark sql学习笔记及代码 * [spark streaming学习笔记及代码 Spark 消息通信 ### Spark ...
介绍了spark sql的简单案例,和基本的语句命令,spark的基本组成等。
Spark SQL、Spark Streaming、MLlib、GraphX、Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎。其相应的生态环境包括zepplin等可视化方面,正日益壮大。大型公司争相实用spark来代替原有hadoop上...
IT十八掌第三期大数据配套学习笔记! 1.Spark简介 2.Spark部署和运行 3.Spark程序开发 4. Spark编程模型 5.作业执行解析 6.Spark SQL与DataFrame 7.深入Spark Streaming 8.Spark MLlib与机器学习 9.GraphX与SparkR 10...
主要介绍了Spark学习笔记之Spark SQL的具体使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
SQL相关官方文档笔记,见SparkSQLDoc.md Spark Streaming 相关, 见SparkStreaming.md 奇淫巧技 IDEA,按住ALT,并按住左键进行框选也能实现多行编辑 Linux的vi编辑。 使用A进入输入模式,再进行复制。如果使用a进入...
RoadOfStudySparkspark学习之路,包含spark core,spark sql,spark streaming,spark mlib学习笔记
Spark学习笔记(一):Spark概述与运行原理 Spark学习笔记(二):RDD编程基础 Spark SQL增加了DataFrame(即带有Schema信息的RDD),使用户可以在Spark SQL中执行SQL语句,数据既可以来自RDD,也可以是Hive、...
It covers Spark core and its add-on libraries, including Spark SQL, Spark Streaming, GraphX, and MLlib. Big Data Analytics with Spark is therefore written for busy professionals who prefer learning a...
学习Spark第二版欢迎使用Learning Spark 2nd Edition的GitHub存储库。 章节 , , ,和包含独立的火花的应用程序。 您可以通过运行Python脚本python build_jars.py来构建每个章节的所有JAR文件。 或者,您可以CD到...
Spark Notebook是面向企业环境的开源笔记本,为数据科学家和数据工程师提供了一个基于Web的交互式编辑器,该编辑器可以以协作的方式结合Scala代码,SQL查询,标记和JavaScript,以探索,分析和学习大量内容。...
这些系列的Spark学习笔记将深入探讨Apache Spark源代码,这意味着将有高级主题,并且读者必须已经熟悉Spark API。 目录 路线图 进行中 执行模型和作业调度 下一个 随机播放 Spark SQL 数据集 催化剂优化器 火花流 ...
Spark从入门到上手实战视频教程,完整版下载,含代码、软件、笔记、课件等。 Spark属于新起的基于内存处理海量数据的框架,由于其快速被众公司所青睐。Spark 生态栈框架,非常的强大,可以对数据进行批处理、流式...
Spark Core学习 对最近在看的赵星老师Spark视频中关于SparkCore的几个案例进行总结。 目录1.WordCountWordCount 执行流程详解2.统计最受欢迎老师topN1. 方法一:普通方法,不设置分组/分区2. 方法二:设置分组和过滤...
课程分享——Spark从入门到上手实战视频教程,完整版下载,含代码、软件、笔记、课件等。Spark属于新起的基于内存处理海量数据的框架,由于其快速被众公司所青睐。Spark 生态栈框架,非常的强大,可以对数据进行...
大数据课程笔记,按照各个章节分别总结。包括部分Hadoop 基础,scale基础,以及整套数据流程应用
学习Spark的代码,关于Spark Core、Spark SQL、Spark Streaming、Spark MLLib 说明 开发环境 基于Deepin Linux 15.9版本 基于Hadoop2.6、Spark2.4、Scala2.11、java8等 系列环境搭建相关文章,见下方 更多内容见:...
IT学习笔记大数据蜂巢卡夫卡猪Power BI Python数据科学库火花火花编码火花流Spark Streaming Real Project教程Kafka客户端应用程序(生产者和消费者) Spark Streaming接收套接字数据并进行字计数。 Spark Streaming...