hive udaf

乡里伢崽

浏览: 108626 次
性别:
来自: 深圳

最近访客更多访客>>

loginboot

gaojingsong

eliot4u

benwudashi

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hive

package com.lwz.udaf;

import org.apache.hadoop.hive.ql.exec.UDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;
//1.此函数区分一条记录的方法，如果没有group by和where的检索，那么整个表的数据都会被作为一条数据，从而只会init（）一次
//然后再把这条数据根据表里面的行数依次进行iterator()，再把iterator（）方法返回的结果通过terminatePartial()返回，当再次
//进行iterator()时，结果就会累加，当最后通过terminate()返回，那么此条记录也就处理完成
//2.如果hql中有group by，那么整张表就会被分为几条记录，而且每次处理新记录前都会被init（）一次，其余的每个步骤都和上一样
public class MyConcat extends UDAF {
public static class ConcatUDAFEvaluator implements UDAFEvaluator{
public static class PartialResult{
   String result;
   String delimiter;
}
private PartialResult partial;
//初始化每条记录
public void init() {
//每次初始化就是将partial置为空
   partial = null;
}
//根据数据的行数轮转调用iterate方法
public boolean iterate(String id,String name,String deli){

   if (name == null||id==null){
//如果传入的参数为空
    return true;
   }
   if (partial == null){
//如果部分结果输出为空，说明是开始读入新的一条记录或者是第一条记录
    partial = new PartialResult();
    //给partial结果赋值
    partial.result = new String("");
    if( deli == null || deli.equals("") )
    {
    //如果分隔符为空或者为""，给partial赋予默认分隔符","
     partial.delimiter = new String(",");
    }
    else
    {
    //如果分隔符不为空，则把传入的分隔符赋予partial的delimiter
     partial.delimiter = new String(deli);
    }

   }
   if ( partial.result.length() > 0 )
   {
//如果partial的结果不为空，则在将结果加上分隔符
    partial.result = partial.result.concat(partial.delimiter);
   }
   //将加上分隔符的结果和新传入进行整合
   partial.result = partial.result.concat(name).concat(id);

   return true;
}
//返回轮转的结果
public PartialResult terminatePartial(){
//将每条记录处理完的结果返回
   return partial;
}
//合并terminatePartial（）返回的结果
public boolean merge(PartialResult other){
   if (other == null){
    return true;
   }
   if (partial == null){
    partial = new PartialResult();
    partial.result = new String(other.result);
    partial.delimiter = new String(other.delimiter);
   }
   else
   {
    if ( partial.result.length() > 0 )
    {
     partial.result = partial.result.concat(partial.delimiter);
    }
    partial.result = partial.result.concat(other.result);
   }
   return true;
}
//返回最终聚合的结果
public String terminate(){
   return new String(partial.result);
}
}
}

•一下两个包是必须的import org.apache.hadoop.hive.ql.exec.UDAF和 org.apache.hadoop.hive.ql.exec.UDAFEvaluator
开发步骤
•函数类需要继承UDAF类，内部类Evaluator实UDAFEvaluator接口
•Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函数
a）init函数实现接口UDAFEvaluator的init函数。
b）iterate接收传入的参数，并进行内部的轮转。其返回类型为boolean。
c）terminatePartial无参数，其为iterate函数轮转结束后，返回轮转数据，terminatePartial类似于hadoop的Combiner。
d）merge接收terminatePartial的返回结果，进行数据merge操作，其返回类型为boolean。
e）terminate返回最终的聚集函数结果。
执行步骤
•执行求平均数函数的步骤
a）将java文件编译成Avg_test.jar。
b）进入hive客户端添加jar包：
hive>add jar /run/jar/Avg_test.jar。
c）创建临时函数：
hive>create temporary function avg_test 'hive.udaf.Avg';
d）查询语句：
hive>select avg_test(scores.math) from scores;
e）销毁临时函数：
hive>drop temporary function avg_test;

查看图片附件

分享到：

hive数据的导出 | hbase scan问题

2014-07-25 16:11
浏览 713
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive udaf

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive udaf

评论

发表评论

相关推荐

hive + hbase

hive 数据倾斜

hive 分通总结

深入了解Hive Index具体实现

explain hive index

Hive 中内部表与外部表的区别与创建方法

hive map和reduce的控制

hive 压缩策略

hive 在mysql中创建备用数据库

HIVE 窗口及分析函数

hive 内置函数

hive lateral view

hive数据的导出

hive自定义InputFormat

HiveServer2连接ZooKeeper出现Too many connections问题的解决

hive 常用命令

CouderaHadoop中hive的Hook扩展

利用SemanticAnalyzerHook回过滤不加分区条件的Hive查询

hive 的常用命令

hive 授权

最近访客更多访客>>