Spark SQL数据类型
数字类型
ByteType:代表一个字节的整数。范围是-128到127
ShortType:代表两个字节的整数。范围是-32768到32767
IntegerType:代表4个字节的整数。范围是-2147483648到2147483647
LongType:代表8个字节的整数。范围是-9223372036854775808到9223372036854775807
FloatType:代表4字节的单精度浮点数
DoubleType:代表8字节的双精度浮点数
DecimalType:代表任意精度的10进制数据。通过内部的java.math.BigDecimal支持。BigDecimal由一个任意精度的整型非标度值和一个32位整数组成
StringType:代表一个字符串值
BinaryType:代表一个byte序列值
BooleanType:代表boolean值
Datetime类型
TimestampType:代表包含字段年,月,日,时,分,秒的值
DateType:代表包含字段年,月,日的值
复杂类型
ArrayType(elementType, containsNull):代表由elementType类型元素组成的序列值。containsNull用来指明ArrayType中的值是否有null值
MapType(keyType, valueType, valueContainsNull):表示包括一组键 - 值对的值。通过keyType表示key数据的类型,通过valueType表示value数据的类型。valueContainsNull用来指明MapType中的值是否有null值
StructType(fields):表示一个拥有StructFields (fields)序列结构的值
StructField(name, dataType, nullable):代表StructType中的一个字段,字段的名字通过name指定,dataType指定field的数据类型,nullable表示字段的值是否有null值。
————————————————
版权声明:本文为CSDN博主「会spark的篮球少年」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_15230053/article/details/84769767
相关推荐
一、前置知识详解 Spark SQL重要是操作DataFrame,...二、Spark SQL读写数据代码实战 import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkC
Data Types - RDD-based API(数据类型) Basic Statistics - RDD-based API(基本统计) Classification and Regression - RDD-based API(分类和回归) Collaborative Filtering - RDD-based API(协同过滤) ...
Spark SQL侦听器将沿袭数据报告到各种输出,例如Amazon Kinesis。 受大力启发,但旨在提供更通用的功能,以帮助那些不能或不会使用Atlas的人。 对于产生输出(例如,将数据写入文件系统)的Spark SQL查询,侦听器...
静态数据处理:Spark Core + Spark SQL 推荐服务:Spark Core + Spark MLlib 在线推荐 获取消息服务:Redis + Kafka 推荐服务:Spark Streaming 数据集格式 商品数据集(Product) 字段名 类型 描述 说明 _id 自动...
2. Spark读取文件系统的数据 (1) 在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数; 图3 spark统计行数 (2) 在spark-shell中读取HDFS系统文件“/user/hadoop/test.txt”...
cleanframes:适用于Apache Spark SQL的基于类型的数据清理库
本项目是一个基于Scala语言开发的Apache Spark大数据处理项目,包含13811个文件,主要文件类型包括Scala源代码、查询文件、文本文件、Java源代码、SQL数据库文件、Python脚本、Markdown文档、输出文件、R语言文件、...
Scala语言基础:由于Spark最初是使用Scala开发的,本书将详细介绍Scala的基础知识,包括语法、数据类型、控制结构、函数式编程等。 Spark与Scala的集成:展示如何在Scala环境下搭建Spark开发环境,包括安装、配置...
该豆瓣电影数据分析分析可视化系统主要可以实现至少对一万条电影数据的爬取和分析,可以从中分析出热门电影类型数据占比、历年电影上线走势、电影高频词统计分析、电影评分等级分析、影评时间统计分析、上线电影...
本项目是一个基于Scala语言开发的Apache Spark大数据处理框架,包含13831个文件,主要文件类型包括Scala源代码、Q文件、文本文件、Java源代码、SQL数据库文件、Python脚本、Markdown文档、输出文件、R语言脚本、...
该豆瓣电影数据分析分析可视化系统主要可以实现至少对一万条电影数据的爬取和分析,可以从中分析出热门电影类型数据占比、历年电影上线走势、电影高频词统计分析、电影评分等级分析、影评时间统计分析、上线电影...
Spark SQL还可以用于从现有的Hive安装中读取数据。有关如何配置此功能的更多信息,请参考Hive表格部分。当从另一种编程语言中运行SQL时,结果将作为DataFrame返回。您还可以使用命令行或jdbc/odbc来与SQL接口进行...
举个列子,当我们想要比较 一个 类型为 RDD[(Long, (String, Int))] 的RDD,让它先按Long分组,然后按int的值进行倒序排序,最容易想到的思维就是先分组,然后把Iterable 转换为 list,然后sortby,但是这样却有一个...
支持SQL: MySQL Flink SQL Spark SQL Hive SQL PL / SQL 提示:该项目是Javascript语言的默认项目,如果需要,您也可以尝试将其编译为其他语言。安装// use npmnpm i dt-sql-parser --save// use yarnyarn add dt-...
lg大数据高薪训练营 HBase、 Java9 、Java10 、MySQL优化 、JVM原理 、JUC多线程、 CDH版Hadoop Impala、 Flume 、Sqoop、 Azkaban、 Oozie、 HUE、 ...Spark SQL · SparkSQL · DataFrame · DataSet · 自定义
相除的时候得进行类型转换处理,否则结果为0. select a.a1,b.b1,a.a1+b.b1 a from bb_sb a ,bb_cywzbrzb b 这是两个不同表之间的列进行运算。 补充知识:Sql语句实现不同记录同一属性列的差值计算 所使用的表的...
数据生成器如果你在从事大数据BI的工作,想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Spark SQL、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin、ClickHouse、Kudu等不同实现方案之间的表现,那你就需要...
在单个Spark作业的内存中运行一个Spark SQL查询图 从Apache Kafka流入事件数据,加入参考数据,然后写入Apache Kudu 从RDBMS表中读取并写入HDFS上的Apache Parquet文件 自动合并为缓慢变化的尺寸(类型1和2,以及...