<!--
@page { margin: 0.79in }
P { margin-bottom: 0.08in }
A:link { so-language: zxx }
-->
在
pig
中使用
UDF
函数:
1
,编写
UDF
函数:
import java.io.IOException;
import org.apache.pig.FilterFunc;
import org.apache.pig.data.Tuple;
public class IsGoodQuality extends FilterFunc{
@Override
public Boolean exec(Tuple tuple) throws IOException {
if(tuple == null || tuple.size() == 0) {
return false;
}
Object object = tuple.get(0);
if(object == null) {
return false;
}
int i = (Integer) object;
return i == 1;
}
}
2.
将
UDF
函数打包成
jar
包
3.
告诉
pig
这个
jar
包的信息:
register
/home/hadoop/Desktop/generate-lib/IsGoodQualityjar.jar
4.
使用这个函数:
filter_records
=filter records by com.jdbc.IsGoodQuality(quality);
5.
查看结果:
dump
filter_records;
6.
为自己写的
UDF
函数定义别名:
define
IsGood com.jdbc.IsGoodQuality();
这里为自己写的
IsGoodQuality()
起别名为
IsGood;
7.
使用重新命令的函数:
filtered_records
=filter records by IsGood(quality);
8.
查看效果:
dump
filtered_records;
分享到:
相关推荐
pig udf,实现了 urldecode、 row_number、 tomap.版本使用cdh4.1.2,如果需要在别的版本中使用,请替换工程文件中的两个jar包,对应您需要的版本。
pdi桥一个项目,允许您轻松地将 Pentaho Data Integration 集成到您的应用程序中。 适用于 Pig UDF、Spark 函数等。
《Pig编程指南》不仅为初学者讲解ApachePig的基础知识,同时也向有一定使用经验的高级用户介绍更加综合全面的Pig重要特性,如PigLatin脚本语言、控制台shell交互命令以及用于对Pig进行拓展的用户自定义函数(UDF)等。...
猪-json 用于 Apache Pig 的 Mortar JSON 工具。... 使用 pig-json 优于 Pig 的内置 JsonStorage 的好处是 pig-json 读取任意 JSON 数据而无需元数据文件,而 Pig 内置的 JsonStorage 只能读取它使
Oink 是基于 Servlet 的 Pig ,提供以下功能:注册/注销/查看 Pig 脚本注册/注销/查看 jar 文件 (用于自定义 UDF 函数)执行 Pig 工作查看 Pig 工作的数据/状态取消一个 Pig 工作 标签:oink
然后可以通过 REGISTER 命令将打包的 jar 导入到 pig 脚本中,并像其他 UDF 一样使用。 使用 UDF 的示例: REGISTER /root/pig/udfs/geohash-1.0-SNAPSHOT.jar; A = LOAD '/user/root/data/crimes.csv' USING ...
apache pig 基础及应用,urldecode row_number web日志分析 根据 用户行为 做出 简易的 相似度 判断。
猪超级日志几个用户定义函数 (UDF) 来计算和使用 HyperLogLog 算法。 存在其他实现(例如, )。 该项目的实施是为了补充并使用完全相同的实现。 因此,它使您能够在猪脚本中计算 HLL 字符串,将结果导入 MySQL,...
这个框架里面通过Pig的UDF函数封装了Store方法,只要Pig能读的任何数据源,我们都可以通过Store函数,将结果轻而易举的存储到我们的索引里面, ####使用步骤 (1)下载源码后,根据自己的业务情况,稍作修改,然后...
JPMML-猪 Apache Pig 平台 ( ) 的 PMML 评估器库。 特征 完全支持 PMML 规范版本 3.0 到 4.2。... 模型启动器类必须扩展抽象 Pig 用户定义函数 (UDF) 类org.apache.pig.EvalFunc并为以下方法提供具体实现: #exec(T
技术点26 在HDFS、MapReduce、Pig 和Hive 中使用数据压缩 技术点27 在MapReduce、Hive 和Pig 中处理可分割的LZOP 5.3 本章小结 6 诊断和优化性能问题 6.1 衡量MapReduce 和你的环境 6.1.1 提取作业统计...
使用Pig和Wukong来探索10亿数量级边的 网络图 测量社区 每个人都在和我说话:Twitter回复关系图 (度)degree 对称链接 社区提取 附录A 安装Apache Hadoop 附录B Cloudera’s Distribution for Hadoop 附录C 准备...
它为测序数据常用的文件格式提供导入和导出功能,以及一组 Pig 用户定义函数 (UDF),以帮助处理对齐和未对齐的序列数据。 目前 SeqPig 支持 BAM/SAM、FastQ 和 Qseq 输入和输出。 有关更多信息,请参阅 ...
使用Pig和Wukong来探索10亿数量级边的 网络图 测量社区 每个人都在和我说话:Twitter回复关系图 degree(度) 对称链接 社区提取 附录A 安装Apache Hadoop 先决条件 安装 配置 本机模式 伪分布...
10.2.1 序列化和反序列化技术点64 载入日志文件10.2.2 UDF、分区、分桶和压缩技术点65 编写UDF 和压缩分区表10.2.3 数据合并技术点66 优化Hive 合并10.2.4 分组、排序和explain 10.3 本章小结11 ...