【Spark106】Spark SQL动态代码生成二

bit1129

浏览: 1051459 次
性别:
来自: 北京

最近访客更多访客>>

xiaoyaohen24

yuxin8000

abc951654

zhongqi2513

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Spark

代码

public SpecificOrdering generate(org.apache.spark.sql.catalyst.expressions.Expression[] expr) {
  return new SpecificOrdering(expr);
}

class SpecificOrdering extends org.apache.spark.sql.catalyst.expressions.codegen.BaseOrdering {
  
  private org.apache.spark.sql.catalyst.expressions.Expression[] expressions;
  
  
  
  public SpecificOrdering(org.apache.spark.sql.catalyst.expressions.Expression[] expr) {
    expressions = expr;
    
  }
  
  @Override
  public int compare(InternalRow a, InternalRow b) {
    InternalRow i = null;  // Holds current row being evaluated.
    
    i = a;
    boolean isNullA2;
    UTF8String primitiveA3;
    {
      /* input[2, StringType] */
      
      boolean isNull0 = i.isNullAt(2);
      UTF8String primitive1 = isNull0 ? null : (i.getUTF8String(2));
      
      isNullA2 = isNull0;
      primitiveA3 = primitive1;
    }
    i = b;
    boolean isNullB4;
    UTF8String primitiveB5;
    {
      /* input[2, StringType] */
      
      boolean isNull0 = i.isNullAt(2);
      UTF8String primitive1 = isNull0 ? null : (i.getUTF8String(2));
      
      isNullB4 = isNull0;
      primitiveB5 = primitive1;
    }
    if (isNullA2 && isNullB4) {
      // Nothing
    } else if (isNullA2) {
      return -1;
    } else if (isNullB4) {
      return 1;
    } else {
      int comp = primitiveA3.compare(primitiveB5);
      if (comp != 0) {
        return comp;
      }
    }
    
    return 0;
  }
}

分享到：

【Spark107】Spark SQL动态代码生成三 | 【Spark105】Spark SQL动态代码生成一

2015-09-02 18:02
浏览 1315
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

剥离的Parser模块，用于查看Spark SQL语法解析SQL后生成的语法树: 剥离的Parser模块，用于查看Spark SQL语法解析SQL后生成的语法树

Spark推荐系统源码.zip: Spark Core + Spark SQL + MongoDB 离线推荐静态数据处理：Spark Core + Spark SQL 推荐服务：Spark Core + Spark MLlib 在线推荐获取消息服务：Redis + Kafka 推荐服务：Spark Streaming 数据集格式商品数据集...

Spark2.0新特性: * 通过whole-stage code generation（全流程代码生成）技术将spark sql和dataset的性能提升2~10倍 * 通过vectorization（向量化）技术提升parquet文件的扫描吞吐量 * 提升orc文件的读写性能 * 提升catalyst查询优化...

七个pdf理解spark系列_5-Architecture: 大量图示，生动形象，总共7个pdf，看完对spark的原理，运行机制以及后续性能调优有很大的帮助，这是第五个pdf，描述了spark任务部署图，Job的提交，逻辑执行图、物理执行图的生成，task的分配，Task的运行等

SparkSQ操作DataFrame，合并DataFrame: 例子中定义了多个List数据集合，包括用户信息，订单信息，用户订单信息，将List对象生成DataFrame，使用SparkSQL查询将多个DataFrame合成一个DataFrame,使用Scala语言编写。

Spark-SQL-HBase:利用spark sql在HBase上搭建的sql查询，支持标准sql查询操作，后续有空闲时间会增加支持插入，删除，建表相关的ddl 语法（rowkey生成策略部分尚未找到较好的解决方案，hbase查询 table也有待修改[目前暂定为TableMapper]）: SparkSQLOnHBase利用spark sql在HBase上搭建的sql查询，支持标准sql查询操作，后续有空闲时间会增加支持插入，删除，建表相关的ddl 语法（rowkey生成策略部分尚未找到较好的解决方案，hbase查询 table也有待修改...

Spark合并输出小文件: 在Spark SQL执行etl时候会有最终结果大小只有几百k，但是小文件一个分区有上千的情况。危害： HDFS有最大文件数限制浪费磁盘资源（可能存在空文件） Hive中进行统计，计算的时候，会产生很多个map，影响计算的速度 ...

SparkSql技术: 1.2.2：字节码生成技术（bytecode generation，即CG） 6 1.2.3：scala代码优化 7 二：sparkSQL运行架构 8 2.1：Tree和Rule 9 2.1.1：Tree 10 2.1.2：Rule 10 2.2：sqlContext的运行过程 12 2.3：hiveContext的运行...

spark-jobserver：适用于Apache Spark的REST作业服务器: spark-jobserver提供了一个RESTful接口，用于提交和... 口香糖保险丝元件前线解算器产品特点“ Spark即服务” ：简单的REST接口（包括HTTPS），用于作业，上下文管理的各个方面支持Spark SQL，Hive，流上下文/作业和

yardstick-spark:Apache Spark 的基准测试: Apache Spark 基准测试 Yardstick Apache Spark 是一组基于 Yardstick 框架编写的基准测试。标尺框架有关如何运行 Yardstick 基准测试和如何生成图表的详细信息，请访问。下面的文档描述了除标准 Yardstick 参数...

dt-sql-parser:使用antlr4构建的BigData SQL解析器: 支持SQL： MySQL Flink SQL Spark SQL Hive SQL PL / SQL 提示：该项目是Javascript语言的默认项目，如果需要，您也可以尝试将其编译为其他语言。安装// use npmnpm i dt-sql-parser --save// use yarnyarn add dt-...

SPARK:凤凰微框架和项目模板: 设计数据库架构和测试数据，并生成SQL初始化脚本；生成请求路由，数据库访问，REST API和管理网站代码。在开发系统上更新数据库架构和数据。将Phoenix脚本编译为人类可读PHP代码。作为管理网站的Stylus和...

Apache Spark 2.0 在作业完成时却花费很长时间结束: 比如我们使用 Spark SQL 去执行一些 SQL，这个 SQL 在最后生成了大量的文件。然后我们可以看到，这个 SQL 所有的 Spark Jobs 其实已经运行完成了，但是这个查询语句还在运行。通过日志，我们可以看到 driver 节点...

SparkSQL基础知识总结: 生成逻辑执行计划，Logical,知道数据从哪里来了通过一些列优化过滤生成物理执行计划Physical最后把物理执行计划放到spark集群上运行SparkSQL就是写SQL,这是错误的观点SparkSQL不是SQL,超出SQL,因为SQL是其一部分...

bunsen:使用Apache Spark探索，转换和分析FHIR数据: 它提供了Java和Python API，可将FHIR资源转换为Spark数据集，然后可以利用该平台的全部功能（包括Spark SQL）对其进行探索。有关详细信息，请参阅。建造本生使用构建和测试，并具有标准Maven生命周期来构建，安装...

hive-vs-sparkSQL-perf-test:这是python源代码，用于从性能测试中生成结果的图形视图，以比较Hive和Saprk SQL。此源代码是博客的一个伴侣-spark source code: hive-vs-sparkSQL-perf-test:这是python源代码，用于从性能测试中生成结果的图形视图，以比较Hive和Saprk SQL。此源代码是博客的一个伴侣

sope:Apache Spark ETL实用程序: 索普 IPA马拉地语：/sə/ / o / /pə/ / e /（形容词：无需付出很大的努力就... 该项目完全支持Spark版本2.x及更高版本。请参考单独的分支以获取1.x支持，这在功能上受到限制。使用mvn clean package生成项目。 sope

Quicksql：用于多个数据源的灵活，快速，联合（3F）SQL分析中间件: 解析层：用于解析，验证，优化SQL语句，拆分混合SQL并最终生成查询计划；计算层：用于将查询计划路由到特定执行计划，然后解释为给定存储或引擎的可执行代码（例如Elasticsearch JSON查询或Hive HQL）；存储层...

在sql中对两列数据进行运算作为新的列操作: 如下所示： ...补充知识：Sql语句实现不同记录同一属性列的差值计算所使用的表的具体结构如下图所示 Table中主键是（plateNumber+currentTime）要实现的查询是：给定车牌号和查询的时间区间，查询给

data-generator:如果你在从事大数据BI的工作，想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Spark SQL、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin、ClickHouse、Kudu等不同实现方案之间的表现，那你就需要一份标准的数据进行测试，这个开源项目就是为了生成这样的标准数据: 数据生成器如果你在从事大数据BI的工作，想对比一下MySQL、GreenPlum、Elasticsearch、Hive、Spark SQL、Presto、Impala、Drill、HAWQ、Druid、Pinot、Kylin、ClickHouse、Kudu等不同实现方案之间的表现，那你就需要...

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【Spark106】Spark SQL动态代码生成二

评论

发表评论

相关推荐

【Spark109】Windows上运行spark-shell

【Spark108】Spark SQL动态代码生成四

【Spark107】Spark SQL动态代码生成三

【Spark105】Spark SQL动态代码生成一

【Spark105】Spark任务调度

【Spark104】Spark源代码构建打包

【Spark103】Task not serializable

【Spark102】Spark存储模块BlockManager剖析

【Spark101】Scala Promise/Future在Spark中的应用

【Spark100】Spark Streaming Checkpoint的一个坑

【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析

【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析

【Spark九十七】RDD API之aggregateByKey

【Spark九十六】RDD API之combineByKey

【Spark九十五】Spark Shell操作Spark SQL

【Spark九十四】spark-sql工具的使用

【Spark九十三】Spark读写Sequence File

【Spark九十二】Spark SQL操作Parquet格式的数据

【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题

【Spark九十】Spark定义计算逻辑函数最佳实践

最近访客更多访客>>