`

spark-学习笔记--20 spark SQL入门

 
阅读更多

spark SQL入门

 

 

 

进化: hive --> shark --> spark sql

 

hive--底层依赖于 MR  --给熟悉sql的人用的

 

shark -- 依赖于hive sql解析器等  比hive快一个数量级

 

spark sql :

  1、多数据源支持 : Hive  RDD JSON JDBC

  2、多种性能优化技术:

       2.1 内存列存储

   2.2 字节码生成技术

   2.3 scala代码编写的优化

   

  3、组件扩展:

 

 

dataFrame: 以列的方式组织

 

 

入口 : SQLContext   、HiveContext

 

 

	public static void main(String[] args) {
		
		
	SparkConf conf = new SparkConf().setMaster("local").setAppName("DataFramCreate");
        JavaSparkContext sc = new JavaSparkContext(conf);
        SQLContext sqlContext = new SQLContext(sc);
        
        DataFrame json = sqlContext.read().json("d://json.txt");
        json.printSchema(); //desc talbe
        json.show();// select * from 
        json.select("id").show();// select id from
        json.select(json.col("id"),json.col("age").plus(100)).show();//可以对列进行计算
        json.filter(json.col("age").gt(25)).show();//过滤
        json.filter(json.col("age").gt(25)).select(json.col("id"),json.col("age").plus(100)).show();// select  where 
        json.groupBy(json.col("age")).count().show();// group by 
        
        
	}

 

 

 

分享到:
评论

相关推荐

    spark学习文档.rar

    spark-streamispark-streaming和spark-sql笔记文档。spark-streaming和spark-sql笔记文档。ng和spark-sql笔记文档。

    spark学习笔记

    spark学习笔记,包含spark SQL 在spark-shell的操作笔记

    Spark 学习之路,包含 Spark Core,Spark SQL,Spark Streaming,Spark mllib 学

    Spark 学习之路,包含 Spark Core,Spark SQL,Spark Streaming,Spark mllib 学习笔记 * [spark core学习笔记及代码 * [spark sql学习笔记及代码 * [spark streaming学习笔记及代码 Spark 消息通信 ### Spark ...

    Spark SQL学习笔记

    介绍了spark sql的简单案例,和基本的语句命令,spark的基本组成等。

    Spark学习笔记

    Spark SQL、Spark Streaming、MLlib、GraphX、Spark R等核心组件解决了很多的大数据问题,其完美的框架日受欢迎。其相应的生态环境包括zepplin等可视化方面,正日益壮大。大型公司争相实用spark来代替原有hadoop上...

    IT十八掌_Spark阶段学习笔记(Spark+Mahout+机器学习)

    IT十八掌第三期大数据配套学习笔记! 1.Spark简介 2.Spark部署和运行 3.Spark程序开发 4. Spark编程模型 5.作业执行解析 6.Spark SQL与DataFrame 7.深入Spark Streaming 8.Spark MLlib与机器学习 9.GraphX与SparkR 10...

    Spark学习笔记之Spark SQL的具体使用

    主要介绍了Spark学习笔记之Spark SQL的具体使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

    java8集合源码分析-spark-sql:spark学习

    SQL相关官方文档笔记,见SparkSQLDoc.md Spark Streaming 相关, 见SparkStreaming.md 奇淫巧技 IDEA,按住ALT,并按住左键进行框选也能实现多行编辑 Linux的vi编辑。 使用A进入输入模式,再进行复制。如果使用a进入...

    RoadOfStudySpark:Spark 学习之路,包含 Spark Core,Spark SQL,Spark Streaming,Spark mllib 学习笔记

    RoadOfStudySparkspark学习之路,包含spark core,spark sql,spark streaming,spark mlib学习笔记

    Spark学习笔记(三):Spark DataFrame

    Spark学习笔记(一):Spark概述与运行原理  Spark学习笔记(二):RDD编程基础  Spark SQL增加了DataFrame(即带有Schema信息的RDD),使用户可以在Spark SQL中执行SQL语句,数据既可以来自RDD,也可以是Hive、...

    Big.Data.Analytics.with.Spark

    It covers Spark core and its add-on libraries, including Spark SQL, Spark Streaming, GraphX, and MLlib. Big Data Analytics with Spark is therefore written for busy professionals who prefer learning a...

    LearningSparkV2:这是学习Spark的github仓库

    学习Spark第二版欢迎使用Learning Spark 2nd Edition的GitHub存储库。 章节 , , ,和包含独立的火花的应用程序。 您可以通过运行Python脚本python build_jars.py来构建每个章节的所有JAR文件。 或者,您可以CD到...

    spark-notebook:使用Scala和Spark进行交互式和React性数据科学

    Spark Notebook是面向企业环境的开源笔记本,为数据科学家和数据工程师提供了一个基于Web的交互式编辑器,该编辑器可以以协作的方式结合Scala代码,SQL查询,标记和JavaScript,以探索,分析和学习大量内容。...

    spark-notes:深入研究Apache Spark

    这些系列的Spark学习笔记将深入探讨Apache Spark源代码,这意味着将有高级主题,并且读者必须已经熟悉Spark API。 目录 路线图 进行中 执行模型和作业调度 下一个 随机播放 Spark SQL 数据集 催化剂优化器 火花流 ...

    Spark从入门到上手实战

    Spark从入门到上手实战视频教程,完整版下载,含代码、软件、笔记、课件等。 Spark属于新起的基于内存处理海量数据的框架,由于其快速被众公司所青睐。Spark 生态栈框架,非常的强大,可以对数据进行批处理、流式...

    Spark Core 笔记02

    Spark Core学习 对最近在看的赵星老师Spark视频中关于SparkCore的几个案例进行总结。 目录1.WordCountWordCount 执行流程详解2.统计最受欢迎老师topN1. 方法一:普通方法,不设置分组/分区2. 方法二:设置分组和过滤...

    Spark从入门到上手实战视频教程

    课程分享——Spark从入门到上手实战视频教程,完整版下载,含代码、软件、笔记、课件等。Spark属于新起的基于内存处理海量数据的框架,由于其快速被众公司所青睐。Spark 生态栈框架,非常的强大,可以对数据进行...

    Spark SQL.xmind.zip

    大数据课程笔记,按照各个章节分别总结。包括部分Hadoop 基础,scale基础,以及整套数据流程应用

    java8stream源码-Learning-Spark:学习Spark的代码,关于SparkCore、SparkSQL、SparkStrea

    学习Spark的代码,关于Spark Core、Spark SQL、Spark Streaming、Spark MLLib 说明 开发环境 基于Deepin Linux 15.9版本 基于Hadoop2.6、Spark2.4、Scala2.11、java8等 系列环境搭建相关文章,见下方 更多内容见:...

    learning-notes:IT学习笔记

    IT学习笔记大数据蜂巢卡夫卡猪Power BI Python数据科学库火花火花编码火花流Spark Streaming Real Project教程Kafka客户端应用程序(生产者和消费者) Spark Streaming接收套接字数据并进行字计数。 Spark Streaming...

Global site tag (gtag.js) - Google Analytics