pig的UDF函数的使用 - - ITeye博客

`

zhangbaoming815

浏览: 147760 次
性别:
来自: 北京

最近访客更多访客>>

ssssd1000

f641385712

qishinihenhao

simshine

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

happyDear： [flash=200,200][url][img][list] ...
java读取txt文件

pig的UDF函数的使用

博客分类：

hadoop

pig UDF函数 pig用户自定义函数 pig user define function

阅读更多

在 pig 中使用 UDF 函数：

1 ，编写 UDF 函数：

import java.io.IOException;

import org.apache.pig.FilterFunc;
import org.apache.pig.data.Tuple;

public class IsGoodQuality extends FilterFunc{

	@Override
	public Boolean exec(Tuple tuple) throws IOException {
		if(tuple == null || tuple.size() == 0) {
			return false;
		}
		
		Object object = tuple.get(0);
		if(object == null) {
			return false;
		}
		int i = (Integer) object;
		return i == 1;
	}
}

2. 将 UDF 函数打包成 jar 包

3. 告诉 pig 这个 jar 包的信息：

register /home/hadoop/Desktop/generate-lib/IsGoodQualityjar.jar

4. 使用这个函数：

filter_records =filter records by com.jdbc.IsGoodQuality(quality);

5. 查看结果：

dump filter_records;

6. 为自己写的 UDF 函数定义别名：

define IsGood com.jdbc.IsGoodQuality();

这里为自己写的 IsGoodQuality() 起别名为 IsGood;

7. 使用重新命令的函数：

filtered_records =filter records by IsGood(quality);

8. 查看效果：

dump filtered_records;

分享到：

AES加密解密 | 在eclipse下运行Map-Reduce程序

2012-07-14 21:40
浏览 2004
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

pig udf 函数(urldecode row_number tomap): pig udf,实现了 urldecode、 row_number、 tomap.版本使用cdh4.1.2，如果需要在别的版本中使用，请替换工程文件中的两个jar包，对应您需要的版本。

pdi-bridge:一个项目，允许您轻松地将 Pentaho Data Integration 集成到您的应用程序中。适用于 Pig UDF、Spark 函数等: pdi桥一个项目，允许您轻松地将 Pentaho Data Integration 集成到您的应用程序中。适用于 Pig UDF、Spark 函数等。

Pig编程指南: 《Pig编程指南》不仅为初学者讲解ApachePig的基础知识，同时也向有一定使用经验的高级用户介绍更加综合全面的Pig重要特性，如PigLatin脚本语言、控制台shell交互命令以及用于对Pig进行拓展的用户自定义函数(UDF)等。...

pig-json:用于 Apache Pig 的 Mortar JSON 工具: 猪-json 用于 Apache Pig 的 Mortar JSON 工具。... 使用 pig-json 优于 Pig 的内置 JsonStorage 的好处是 pig-json 读取任意 JSON 数据而无需元数据文件，而 Pig 内置的 JsonStorage 只能读取它使

基于REST接口的PIG的oink.zip: Oink 是基于 Servlet 的 Pig ，提供以下功能：注册/注销/查看 Pig 脚本注册/注销/查看 jar 文件（用于自定义 UDF 函数）执行 Pig 工作查看 Pig 工作的数据／状态取消一个 Pig 工作标签：oink

GeohashPigUDF:一个 UDF，可以将 2-d latlon 对编码为 1-d geohash: 然后可以通过 REGISTER 命令将打包的 jar 导入到 pig 脚本中，并像其他 UDF 一样使用。使用 UDF 的示例： REGISTER /root/pig/udfs/geohash-1.0-SNAPSHOT.jar; A = LOAD '/user/root/data/crimes.csv' USING ...

apache pig 基础及应用: apache pig 基础及应用,urldecode row_number web日志分析根据用户行为做出简易的相似度判断。

pig-hyperloglog:一个用于计算和使用 HyperLogLog 算法的猪 udf: 猪超级日志几个用户定义函数 (UDF) 来计算和使用 HyperLogLog 算法。存在其他实现（例如，）。该项目的实施是为了补充并使用完全相同的实现。因此，它使您能够在猪脚本中计算 HLL 字符串，将结果导入 MySQL，...

PigExtend:Apache Pig+MapReduce给LuceneSolrElasticSearch构建索引: 这个框架里面通过Pig的UDF函数封装了Store方法，只要Pig能读的任何数据源，我们都可以通过Store函数，将结果轻而易举的存储到我们的索引里面， ####使用步骤（1）下载源码后，根据自己的业务情况，稍作修改，然后...

jpmml-pig:Apache Pig 平台的 PMML 评估器库（旧代码库）: JPMML-猪 Apache Pig 平台 ( ) 的 PMML 评估器库。特征完全支持 PMML 规范版本 3.0 到 4.2。... 模型启动器类必须扩展抽象 Pig 用户定义函数 (UDF) 类org.apache.pig.EvalFunc并为以下方法提供具体实现： #exec(T

Hadoop硬实战 [（美）霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载带书签目录高清完整版.rar ): 技术点26　在HDFS、MapReduce、Pig 和Hive 中使用数据压缩技术点27　在MapReduce、Hive 和Pig 中处理可分割的LZOP 5．3　本章小结 6　诊断和优化性能问题 6．1　衡量MapReduce 和你的环境 6．1．1　提取作业统计...

Hadoop权威指南（中文版）2015上传.rar: 使用Pig和Wukong来探索10亿数量级边的网络图测量社区每个人都在和我说话：Twitter回复关系图（度）degree 对称链接社区提取附录A 安装Apache Hadoop 附录B Cloudera’s Distribution for Hadoop 附录C 准备...

SeqPig:使用 Apache Pig 处理大型测序数据集！-开源: 它为测序数据常用的文件格式提供导入和导出功能，以及一组 Pig 用户定义函数 (UDF)，以帮助处理对齐和未对齐的序列数据。目前 SeqPig 支持 BAM/SAM、FastQ 和 Qseq 输入和输出。有关更多信息，请参阅 ...

Hadoop权威指南第二版(中文版): 　使用Pig和Wukong来探索10亿数量级边的网络图　测量社区　每个人都在和我说话：Twitter回复关系图　degree(度) 　对称链接　社区提取附录A 安装Apache Hadoop 　先决条件　安装　配置　本机模式　伪分布...

Hadoop实战(第2版): 10．2．1　序列化和反序列化技术点64　载入日志文件10．2．2　UDF、分区、分桶和压缩技术点65　编写UDF 和压缩分区表10．2．3　数据合并技术点66　优化Hive 合并10．2．4　分组、排序和explain 10．3　本章小结11　...

Global site tag (gtag.js) - Google Analytics