RDD 转换为 DataFrame--使用编程接口
public static void main(String[] args) { SparkConf conf = new SparkConf().setMaster("local").setAppName("PersonDataFrame"); JavaSparkContext sc = new JavaSparkContext(conf); SQLContext sqlContext = new org.apache.spark.sql.SQLContext(sc); JavaRDD<String> textFile = sc.textFile("d://json.txt"); JavaRDD<Person> mapPerson = textFile.map(new Function<String, Person>() { @Override public Person call(String arg0) throws Exception { Person p = JSONObject.parseObject(arg0, Person.class); return p; } }); //使用编程接口 动态构建 String schemaString = "name age"; List<StructField> fields = new ArrayList<StructField>(); for (String fieldName: schemaString.split(" ")) { fields.add(DataTypes.createStructField(fieldName, DataTypes.StringType, true)); } // fields.add(DataTypes.createStructField("name", DataTypes.StringType, true)); // fields.add(DataTypes.createStructField("age", DataTypes.IntegerType, true)); //构建 schema StructType schema = DataTypes.createStructType(fields); //构建 数组 JavaRDD<Row> rowRDD = mapPerson.map(new Function<Person, Row>() { @Override public Row call(Person p) throws Exception { return RowFactory.create(p.getName(),String.valueOf(p.getAge())); } }); //使用 rowRDD 数据 和 schema 生成 DataFrame DataFrame peopleDataFrame = sqlContext.createDataFrame(rowRDD, schema); peopleDataFrame.registerTempTable("people"); DataFrame results = sqlContext.sql("SELECT name FROM people"); results.show(); }
相关推荐
包括spara rdd api,dataframe action操作、查询操作、join操作,dataframe rdd dataset 相互转换以及spark sql。
使用命令./bin/spark-shell启动spark 图2启动spark 2. Spark读取文件系统的数据 (1) 在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数; 图3 spark统计行数 (2) 在spark-...
Spark-Core文档是本人经三年总结笔记汇总而来,对于自我学习Spark核心基础知识非常方便,资料中例举完善,内容丰富。具体目录如下: 目录 第一章 Spark简介与计算模型 3 1 What is Spark 3 2 Spark简介 3 3 Spark...
当Spark对数据操作和转换时,会自动将RDD中的数据分发到集群,并将操作并行化执行。 Spark中的RDD是一个不可变的分布式对象集合。每个RDD都倍分为多个分区,这些分区运行在集群中的不同节点。RDD可以包含Python、...
内容根据spark rdd.scala和ParRDDFunctions.scala源码中rdd顺序整理,包含rdd功能解释。对熟悉spark rdd很有用
详细介绍了基于RDD的DataFrame数据结构以及操作接口。
Spark学习笔记(二):RDD编程基础 Spark SQL增加了DataFrame(即带有Schema信息的RDD),使用户可以在Spark SQL中执行SQL语句,数据既可以来自RDD,也可以是Hive、HDFS、Cassandra等外部数据源,还可以是JSON格式...
Spark-2.3.1源码解读。 Spark Core源码阅读 Spark Context 阅读要点 Spark的缓存,变量,shuffle数据等清理及机制 Spark-submit关于参数及部署模式的部分解析 GroupByKey VS ReduceByKey OrderedRDDFunctions...
spark-lucenerdd, 使用Lucene功能的查询来激发 RDD lucenerdd 使用 Apache Lucene的RDD x Spark x Spark 。主要抽象是特殊类型的RDD 调用 LuceneRDD 。FacetedLuceneRDD 和 ShapeLuceneR
目录(Scala中的Spark示例)Spark RDD示例火花蓄能器介绍将Spark RDD转换为DataFrame | 数据集 Spark SQL教程Spark创建带有示例的DataFrame Spark DataFrame withColumn 重命名Spark DataFrame上的列的方法Spark –...
今天小编就为大家分享一篇spark: RDD与DataFrame之间的相互转换方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
Transformations:转换(Transformations) (如:map, filter, groupBy, join等),Transformations操作是Lazy的,也就是说从一个RDD转换生成另一个RDD的操作不是马上执行,Spark在遇到Transformations操作时只会记录...
spark-textFile构建RDD的分区及compute计算策略
Spark_RDD
大数据实验报告Windows环境下安装Spark及RDD编程和Spark编程实现wordcount.doc
spark-RDD的特性介绍及源码阅读必备基础
(1)通过实验掌握 Spark SQL 的基本编程方法; (2)熟悉 RDD 到 DataFrame 的转化方法; (3)熟悉利用 Spark SQL 管理来自不同数据源的数据。 (4)java程序实现SparkSQL 二、实验环境 Windows 10 VMware ...
上一节我们简单介绍了RDD中转化和执行操作的用法,本节将通过一个具体的示例来加深对RDD的认识。 一.需求 统计本地文件中单词出现次数 二.操作流程 1.读取外部文件创建JavaRDD; 2.通过flatMap转化操作切分字符...
今天小编就为大家分享一篇Java和scala实现 Spark RDD转换成DataFrame的两种方法小结,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
spark实验5 rdd编程2.doc