<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>2.1.0</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.10</artifactId> <version>2.1.0</version> </dependency>
import java.io.Serializable; import java.util.Arrays; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SQLContext; import org.apache.spark.sql.SparkSession; public class SparkSqlTest { public static class Person implements Serializable { private static final long serialVersionUID = -6259413972682177507L; private String name; private int age; public Person(String name, int age) { this.name = name; this.age = age; } public String toString() { return name + ": " + age; } public String getName() { return name; } public void setName(String name) { this.name = name; } public int getAge() { return age; } public void setAge(int age) { this.age = age; } } public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName("Test").setMaster("local"); JavaSparkContext sc = new JavaSparkContext(conf); SparkSession spark = SparkSession.builder().appName("Test").getOrCreate(); JavaRDD<String> input = sc.parallelize(Arrays.asList("abc,1", "test,2")); JavaRDD<Person> persons = input.map(s -> s.split(",")).map(s -> new Person(s[0], Integer.parseInt(s[1]))); //[abc: 1, test: 2] System.out.println(persons.collect()); Dataset<Row> df = spark.createDataFrame(persons, Person.class); /* +---+----+ |age|name| +---+----+ | 1| abc| | 2|test| +---+----+ */ df.show(); /* root |-- age: integer (nullable = false) |-- name: string (nullable = true) */ df.printSchema(); SQLContext sql = new SQLContext(spark); sql.registerDataFrameAsTable(df, "person"); /* +---+----+ |age|name| +---+----+ | 2|test| +---+----+ */ sql.sql("SELECT * FROM person WHERE age>1").show(); sc.close(); } }
相关推荐
Learning Spark SQL 英文epub 本资源转载自网络,如有侵权,请联系上传者或csdn删除 本资源转载自网络,如有侵权,请联系上传者或csdn删除
主要给大家介绍了关于Spark SQL操作JSON字段的小技巧,文中通过示例代码介绍的非常详细,对大家学习或者使用spark sql具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧。
Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作,也可以被注册为临时表。把DataFrame注册为临时表之后,就可以对该DataFrame执行SQL查询。 Spark SQL的默认数据源为Parquet...
Databrciks工程师,Spark Committer,Spark SQL主要开发者之一的连城详细解读了“Spark SQL结构化数据分析”。他介绍了Spark1.3版本中的很多新特性。重点介绍了DataFrame。其从SchemaRDD演变而来,提供了更加高层...
参考Spark官网以及一些文献,制作的Spark SQL教学幻灯片,适合进行Spark入门介绍与教学!所有的Spark教学系列都在我的资源内!
Spark SQL 详细介绍 实验介绍 有需要的尽快下载吧
表达式计算在Spark SQL中随处可见,本演讲将简介表达式、UDF、UDAF、UDTF的概念,主要的API,以及如何扩展Spark SQL函数库。本演讲还将提及Catalyst在计划阶段和Project Tungsten在执行层做的优化,以及未来性能提升...
Learning Spark SQL - Aurobindo Sarka
Spark SQL操作大全.zip
List<row> list= spark.sql(sql).collectAsList(),获或者其他方法将数据存在List里面,然后就list转为 Dataset分批入库
前言1. 2 从零起步掌握 Hive1. 2. 1 Hive 的本质是什么1. 2. 2 Hive 安装和配置1. 2. 3 使用 Hive 分析搜索数据1.
spark-sql解析-源码分析
Spark SQL源码概览.zip Spark SQL源码概览.zip Spark SQL源码概览.zip Spark SQL源码概览.zipSpark SQL源码概览.zip
实训指导书_使用Spark SQL进行法律服务网站数据分析.zip
the basics of Spark SQL and its role in Spark applications. After the initial familiarization with Spark SQL, we will focus on using Spark SQL to execute tasks that are common to all big data projects
我们把基于成本的优化器框架贡献给社区版本Spark 2.2。...这个基于成本的优化器框架对Spark SQL查询的性能有很好的提升 。在这次演讲中,我们将展示Spark SQL的新的基于成本的优化器框架及其对TPC-DS查询的性能影响。
Spark SQL 包含 3 个子项目:Core、Catalyst、Hive。其中 Catalyst 是核心的查询优化引 擎,独立于 Spark 平台;Spark SQL Core 封装 Catalyst,向应用程序提供 SparkSession、Dataset、 DataFrame 等 API...
spark官文文档翻译有关spark SQL编程指南,spark SQL是以测试组件,有关api的介绍