hive genPlan

bupt04406

浏览: 344617 次
性别:
来自: 杭州

最近访客更多访客>>

rotkNirvana

zhangyi0618

xuhai0605

pengcong90

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Hive

hive

(TOK_QUERY
(TOK_FROM (TOK_TABREF src))
(TOK_INSERT
(TOK_DESTINATION (TOK_DIR TOK_TMP_FILE))
(TOK_SELECT (TOK_SELEXPR TOK_ALLCOLREF))
(TOK_WHERE (< (. (TOK_TABLE_OR_COL src) key) 10))
)
)
一个查询会被Antlr解析成上面这种结构：root节点是TOK_QUERY，两个孩子节点是TOK_FROM，TOK_INSERT。
TOK_INSERT 有几个节点：(1)必须的 TOK_DESTINATION，数据写入到的目录 (2)必须的 TOK_SELECT，选取的字段 (3)其他节点非必须的，如TOK_WHERE,TOK_SORTBY,TOK_CLUSTERBY,TOK_DISTRIBUTEBY,TOK_ORDERBY,TOK_GROUPBY,TOK_LIMIT

from 有4种子节点：   见SemanticAnalyzer.doPhase1
(1) HiveParser.TOK_TABREF 普通的表
(2) HiveParser.TOK_SUBQUERY 子查询,这里有两种情况一种是无union的subq，或者是有union，两个subq union组成的：(subq1 union subq2) subqalias。见SemanticAnalyzer.processSubQuery和SemanticAnalyzer.doPhase1QBExpr
(3) HiveParser.TOK_LATERAL_VIEW
(4) join：join节点有几个子节点，如两个TOK_TABREF+on表示的“=”节点三个子节点，或者两个子查询TOK_SUBQUERY节点。 join0.q，join1.q
(TOK_JOIN
(TOK_TABREF src src1)
(TOK_TABREF src src2)
(=
(. (TOK_TABLE_OR_COL src1) key)
(. (TOK_TABLE_OR_COL src2) key)
)
)

SemanticAnalyzer.genPlan(QB qb){
    (1) 递归遍历子查询（子查询来自from），生成子查询的operator，子查询的operator依然是通过调用SemanticAnalyzer.genPlan(QB qb)来生成，子查询有两种一种是union,一种是非union,两种情况处理不相同。
如果是非union，直接调用SemanticAnalyzer.genPlan(QB qb)来生成子查询的operator树。
如果是union，则union的两个子节点分别调用SemanticAnalyzer.genPlan(QB qb)来生成两个子查询的operator的树，然后生成一个UnionOperator来union这两个子operator树。见SemanticAnalyzer.genPlan(QBExpr qbexpr)
        operator如下：
         1.1 如果subquery是QBExpr.Opcode.NULLOP类型，生成subquery的operator树。
         1.2 如果subquery是QBExpr.Opcode.UNION，生成两个子subquery的operator树，生成一个union operator 做为两个子subquery的共同child。
    (2) 遍历所有的源表，针对每个源表生成一个对应的TableScanOperator
    (3) 处理lateral view
    (4) 处理join (join出现在from中)
        operator如下：
         4.1 如果join条件中有过滤条件，抽取出来生成FilterOperator过滤不需要的records，放到join操作前.
         4.2 生成JoinOperator，做为join操作两边的operator的child。
    (5) genBodyPlan(QB qb, Operator input)
}

SemanticAnalyzer.genBodyPlan(QB qb, Operator input){
   (1) multi-group by 看能够优化
   (2) 针对每个目标表（destination tables，doPhase1在处理HiveParser.TOK_SELECT时设置），destToSelExpr
        2.1 如果有where条件，生成一个FilterOperator
        2.2 如果有聚合函数或者groupby，做如下处理：
            插入一个select operator，选取所有的字段，用于优化阶段ColumnPruner的优化
            2.2.1 hive.map.aggr为true，默认是true，开启的，在map端做部分聚合
                  2.2.1.1 hive.groupby.skewindata为false，默认是关闭的，groupby的数据没有倾斜。
                  生成的operator是: GroupByOperator+ReduceSinkOperator+GroupByOperator。
      GroupByOperator+ReduceSinkOperator用于在map端做操作，第一个GroupByOperator在map端先做部分聚合。第二个用于在reduce端做GroupBy操作
                  2.2.1.2 hive.groupby.skewindata为true
                  生成的operator是: GroupbyOperator+ReduceSinkOperator+GroupbyOperator+ReduceSinkOperator +GroupByOperator
               GroupbyOperator+ReduceSinkOperator（第一个MapredTask的map阶段）
               GroupbyOperator(第一个MapredTask的reduce阶段)
               ReduceSinkOperator （第二个MapredTask的map阶段）
               GroupByOperator（第二个MapredTask的reduce阶段）
            2.2.2 hive.map.aggr为false
                   2.2.2.1 hive.groupby.skewindata为true
                    生成的operator是: ReduceSinkOperator+GroupbyOperator+ReduceSinkOperator +GroupByOperator
               ReduceSinkOperator(第一个MapredTask的map阶段)
               GroupbyOperator(第一个MapredTask的reduce阶段)
               ReduceSinkOperator （第二个MapredTask的map阶段）
               GroupByOperator（第二个MapredTask的reduce阶段）
                   2.2.2.2 hive.groupby.skewindata为false
                    生成的operator是: ReduceSinkOperator(map阶段运行)+GroupbyOperator（reduce阶段运行）
        2.3 生成一个SelectOperator
        2.4 如果有ClusterBy、DistributedBy、OrderBy、SortBy生成ReduceSinkOperator+ExtractOperator
             如果是OrderBy,则会设置numReducers的个数为1
        2.5 是否是子查询，是2.5.1，否2.5.2
             2.5.1 是子查询
             2.5.2 不是子查询
                 1. 是否有limit，无跳过，有进行相应处理。
                 2. 如果前面获得的字段类型跟最终的字段类型不同，需要做转换则生成一个SelectOperator用于类型转换，最后生成一个FileSinkOperator。
        结束。
}

任何一个Map Join都会由两阶段构成
第一阶段是本地任务把小表分发到每一台机
第二阶段是执行Map-Only Job，进行Map Join操作

还有待整理。。

分享到：

hive ppd | hive 行分隔符

2011-07-17 21:42
浏览 2646
评论(1)
分类:开源软件
查看更多

1 楼 Link028 2011-11-04

专家级别，膜拜了

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive genPlan

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive genPlan

评论

发表评论

相关推荐

hive rename table name

hive的distribute by如何partition long型的数据

hive like vs rlike vs regexp

hive sql where条件很简单，但是太多

insert into时(string->bigint)自动类型转换

通过复合结构来优化udf的调用

RegexSerDe

Hive 的 OutputCommitter

hive LATERAL VIEW 行转列

hive complex type

hive转义字符

hive 两个不同类型的columns进行比较

lateral view

udf 中获得 FileSystem

hive union mapjoin

hive eclipse

hive join filter

hive limit

hive convertMapJoin MapJoinProcessor

hive hive.merge.mapfiles hive.merge.mapredfiles

最近访客更多访客>>