【Spark107】Spark SQL动态代码生成三

bit1129

浏览: 1051523 次
性别:
来自: 北京

最近访客更多访客>>

xiaoyaohen24

yuxin8000

abc951654

zhongqi2513

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Spark

代码

2015-09-02 14:46:27,226-[TS] DEBUG Executor task launch worker-1 org.apache.spark.sql.catalyst.expressions.codegen.GenerateSafeProjection - code for input[0, StringType],input[1, StringType],input[2, StringType],input[3, StringType],input[4, StringType]:

public Object generate(org.apache.spark.sql.catalyst.expressions.Expression[] expr) {
  return new SpecificSafeProjection(expr);
}

class SpecificSafeProjection extends org.apache.spark.sql.catalyst.expressions.codegen.BaseProjection {
  
  private org.apache.spark.sql.catalyst.expressions.Expression[] expressions;
  private org.apache.spark.sql.catalyst.expressions.MutableRow mutableRow;
  
  
  
  public SpecificSafeProjection(org.apache.spark.sql.catalyst.expressions.Expression[] expr) {
    expressions = expr;
    mutableRow = new org.apache.spark.sql.catalyst.expressions.GenericMutableRow(5);
    
  }
  
  public Object apply(Object _i) {
    InternalRow i = (InternalRow) _i;
    /* input[0, StringType] */
    
    boolean isNull0 = i.isNullAt(0);
    UTF8String primitive1 = isNull0 ? null : (i.getUTF8String(0));
    
    if (isNull0) {
      mutableRow.setNullAt(0);
    } else {
      
      mutableRow.update(0, primitive1.clone().clone());
    }
    /* input[1, StringType] */
    
    boolean isNull2 = i.isNullAt(1);
    UTF8String primitive3 = isNull2 ? null : (i.getUTF8String(1));
    
    if (isNull2) {
      mutableRow.setNullAt(1);
    } else {
      
      mutableRow.update(1, primitive3.clone().clone());
    }
    /* input[2, StringType] */
    
    boolean isNull4 = i.isNullAt(2);
    UTF8String primitive5 = isNull4 ? null : (i.getUTF8String(2));
    
    if (isNull4) {
      mutableRow.setNullAt(2);
    } else {
      
      mutableRow.update(2, primitive5.clone().clone());
    }
    /* input[3, StringType] */
    
    boolean isNull6 = i.isNullAt(3);
    UTF8String primitive7 = isNull6 ? null : (i.getUTF8String(3));
    
    if (isNull6) {
      mutableRow.setNullAt(3);
    } else {
      
      mutableRow.update(3, primitive7.clone().clone());
    }
    /* input[4, StringType] */
    
    boolean isNull8 = i.isNullAt(4);
    UTF8String primitive9 = isNull8 ? null : (i.getUTF8String(4));
    
    if (isNull8) {
      mutableRow.setNullAt(4);
    } else {
      
      mutableRow.update(4, primitive9.clone().clone());
    }
    
    return mutableRow;
  }
}

分享到：

【Spark108】Spark SQL动态代码生成四 | 【Spark106】Spark SQL动态代码生成二

2015-09-02 18:04
浏览 1678
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

剥离的Parser模块，用于查看Spark SQL语法解析SQL后生成的语法树: 剥离的Parser模块，用于查看Spark SQL语法解析SQL后生成的语法树

Spark推荐系统源码.zip: Spark Core + Spark SQL + MongoDB 离线推荐静态数据处理：Spark Core + Spark SQL 推荐服务：Spark Core + Spark MLlib 在线推荐获取消息服务：Redis + Kafka 推荐服务：Spark Streaming 数据集格式商品数据集...

Spark2.0新特性: * 通过whole-stage code generation（全流程代码生成）技术将spark sql和dataset的性能提升2~10倍 * 通过vectorization（向量化）技术提升parquet文件的扫描吞吐量 * 提升orc文件的读写性能 * 提升catalyst查询优化...

七个pdf理解spark系列_5-Architecture: 大量图示，生动形象，总共7个pdf，看完对spark的原理，运行机制以及后续性能调优有很大的帮助，这是第五个pdf，描述了spark任务部署图，Job的提交，逻辑执行图、物理执行图的生成，task的分配，Task的运行等

SparkSQ操作DataFrame，合并DataFrame: 例子中定义了多个List数据集合，包括用户信息，订单信息，用户订单信息，将List对象生成DataFrame，使用SparkSQL查询将多个DataFrame合成一个DataFrame,使用Scala语言编写。

Spark-SQL-HBase:利用spark sql在HBase上搭建的sql查询，支持标准sql查询操作，后续有空闲时间会增加支持插入，删除，建表相关的ddl 语法（rowkey生成策略部分尚未找到较好的解决方案，hbase查询 table也有待修改[目前暂定为TableMapper]）: SparkSQLOnHBase利用spark sql在HBase上搭建的sql查询，支持标准sql查询操作，后续有空闲时间会增加支持插入，删除，建表相关的ddl 语法（rowkey生成策略部分尚未找到较好的解决方案，hbase查询 table也有待修改...

Spark合并输出小文件: 在Spark SQL执行etl时候会有最终结果大小只有几百k，但是小文件一个分区有上千的情况。危害： HDFS有最大文件数限制浪费磁盘资源（可能存在空文件） Hive中进行统计，计算的时候，会产生很多个map，影响计算的速度 ...

SparkSql技术: 1.2.2：字节码生成技术（bytecode generation，即CG） 6 1.2.3：scala代码优化 7 二：sparkSQL运行架构 8 2.1：Tree和Rule 9 2.1.1：Tree 10 2.1.2：Rule 10 2.2：sqlContext的运行过程 12 2.3：hiveContext的运行...

spark-jobserver：适用于Apache Spark的REST作业服务器: spark-jobserver提供了一个RESTful接口，用于提交和... 口香糖保险丝元件前线解算器产品特点“ Spark即服务” ：简单的REST接口（包括HTTPS），用于作业，上下文管理的各个方面支持Spark SQL，Hive，流上下文/作业和

yardstick-spark:Apache Spark 的基准测试: Apache Spark 基准测试 Yardstick Apache Spark 是一组基于 Yardstick 框架编写的基准测试。标尺框架有关如何运行 Yardstick 基准测试和如何生成图表的详细信息，请访问。下面的文档描述了除标准 Yardstick 参数...

dt-sql-parser:使用antlr4构建的BigData SQL解析器: 支持SQL： MySQL Flink SQL Spark SQL Hive SQL PL / SQL 提示：该项目是Javascript语言的默认项目，如果需要，您也可以尝试将其编译为其他语言。安装// use npmnpm i dt-sql-parser --save// use yarnyarn add dt-...

SPARK:凤凰微框架和项目模板: 设计数据库架构和测试数据，并生成SQL初始化脚本；生成请求路由，数据库访问，REST API和管理网站代码。在开发系统上更新数据库架构和数据。将Phoenix脚本编译为人类可读PHP代码。作为管理网站的Stylus和...

SparkSQL基础知识总结: 生成逻辑执行计划，Logical,知道数据从哪里来了通过一些列优化过滤生成物理执行计划Physical最后把物理执行计划放到spark集群上运行SparkSQL就是写SQL,这是错误的观点SparkSQL不是SQL,超出SQL,因为SQL是其一部分...

Apache Spark 2.0 在作业完成时却花费很长时间结束: 比如我们使用 Spark SQL 去执行一些 SQL，这个 SQL 在最后生成了大量的文件。然后我们可以看到，这个 SQL 所有的 Spark Jobs 其实已经运行完成了，但是这个查询语句还在运行。通过日志，我们可以看到 driver 节点...

bunsen:使用Apache Spark探索，转换和分析FHIR数据: 它提供了Java和Python API，可将FHIR资源转换为Spark数据集，然后可以利用该平台的全部功能（包括Spark SQL）对其进行探索。有关详细信息，请参阅。建造本生使用构建和测试，并具有标准Maven生命周期来构建，安装...

hive-vs-sparkSQL-perf-test:这是python源代码，用于从性能测试中生成结果的图形视图，以比较Hive和Saprk SQL。此源代码是博客的一个伴侣-spark source code: hive-vs-sparkSQL-perf-test:这是python源代码，用于从性能测试中生成结果的图形视图，以比较Hive和Saprk SQL。此源代码是博客的一个伴侣

Quicksql：用于多个数据源的灵活，快速，联合（3F）SQL分析中间件: 解析层：用于解析，验证，优化SQL语句，拆分混合SQL并最终生成查询计划；计算层：用于将查询计划路由到特定执行计划，然后解释为给定存储或引擎的可执行代码（例如Elasticsearch JSON查询或Hive HQL）；存储层...

sope:Apache Spark ETL实用程序: 在较高的层次上，该库在Spark SQL API的基础上提供了抽象，这使开发基于SQL操作的应用程序变得更加容易。该项目包含以下子模块： sope-spark ：该模块包含有用的Dataframe函数和一个Scala内部dsl库，该库有助于以...

data-generator:如果你在从事大数据BI的工作，想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Spark SQL、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin、ClickHouse、Kudu等不同实现方案之间的表现，那你就需要一份标准的数据进行测试，这个开源项目就是为了生成这样的标准数据: 数据生成器如果你在从事大数据BI的工作，想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Spark SQL、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin、ClickHouse、Kudu等不同实现方案之间的表现，那你就需要...

people.json: for spark sql test data

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【Spark107】Spark SQL动态代码生成三

评论

发表评论

相关推荐

【Spark109】Windows上运行spark-shell

【Spark108】Spark SQL动态代码生成四

【Spark106】Spark SQL动态代码生成二

【Spark105】Spark SQL动态代码生成一

【Spark105】Spark任务调度

【Spark104】Spark源代码构建打包

【Spark103】Task not serializable

【Spark102】Spark存储模块BlockManager剖析

【Spark101】Scala Promise/Future在Spark中的应用

【Spark100】Spark Streaming Checkpoint的一个坑

【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析

【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析

【Spark九十七】RDD API之aggregateByKey

【Spark九十六】RDD API之combineByKey

【Spark九十五】Spark Shell操作Spark SQL

【Spark九十四】spark-sql工具的使用

【Spark九十三】Spark读写Sequence File

【Spark九十二】Spark SQL操作Parquet格式的数据

【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题

【Spark九十】Spark定义计算逻辑函数最佳实践

最近访客更多访客>>