使用到Pig来分析线上的搜索日志数据,散仙本打算使用hive来分析的,但由于种种原因,没有用成,而Pig(pig0.12-cdh)散仙一直没有接触过,所以只能临阵磨枪了,花了两天时间,大致看完了pig官网的文档,在看文档期间,也是边实战边学习,这样以来,对pig的学习,会更加容易,当然本篇不是介绍如何快速学好一门框架或语言的文章,正如标题所示,散仙打算介绍下如何在Pig中,使用用户自定义的UDF函数,关于学习经验,散仙会在后面的文章里介绍。
一旦你学会了UDF的使用,就意味着,你可以以更加灵活的方式来使用Pig,使它扩展一些为我们的业务场景定制的特殊功能,而这些功能,在通用的pig里是没有的,举个例子:
你从HDFS上读取的数据格式,如果使用默认的PigStorage()来加载,存储可能只支持有限的数据编码和类型,如果我们定义了一种特殊的编码存储或序列化方式,那么当我们使用默认的Pig来加载的时候,就会发现加载不了,这时候我们的UDF就派上用场了,我们只需要自定义一个LoadFunction和一个StoreFunction就可以解决,这种问题。
本篇散仙根据官方文档的例子,来实战一下,并在hadoop集群上使用Pig测试通过:
我们先来看下定义一个UDF扩展类,需要几个步骤:
序号 | 步骤 | 说明 | 1 | 在eclipse里新建一个java工程,并导入pig的核心包 | java项目 | 2 | 新建一个包,继承特定的接口或类,重写自定义部分 | 核心业务 | 3 | 编写完成后,使用ant打包成jar | 编译时需要pig依赖,但不用把pig的jar包打入UDF中 | 4 | 把打包完成后的jar上传到HDFS上 | pig运行时候需要加载使用 | 5 | 在pig脚本里,注册我们自定义的udf的jar包 | 注入运行时环境 | 6 | 编写我们的核心业务pig脚本运行 | 测试是否运行成功 |
项目工程截图如下:
核心代码如下:
- package com.pigudf;
- import java.io.IOException;
- import org.apache.pig.EvalFunc;
- import org.apache.pig.data.Tuple;
- import org.apache.pig.impl.util.WrappedIOException;
- /**
- * 自定义UDF类,对字符串转换大写
- * @author qindongliang
- * */
- public class MyUDF extends EvalFunc<String> {
- @Override
- public String exec(Tuple input) throws IOException {
- //判断是否为null或空,就跳过
- if(input==null||input.size()==0){
- return null;
- }
- try{
- //获取第一个元素
- String str=(String) input.get(0);
- //转成大写返回
- return str.toUpperCase();
- }catch(Exception e){
- throw WrappedIOException.wrap("Caught exception processing input row ",e);
- }
- }
- }
package com.pigudf; import java.io.IOException; import org.apache.pig.EvalFunc; import org.apache.pig.data.Tuple; import org.apache.pig.impl.util.WrappedIOException; /** * 自定义UDF类,对字符串转换大写 * @author qindongliang * */ public class MyUDF extends EvalFunc<String> { @Override public String exec(Tuple input) throws IOException { //判断是否为null或空,就跳过 if(input==null||input.size()==0){ return null; } try{ //获取第一个元素 String str=(String) input.get(0); //转成大写返回 return str.toUpperCase(); }catch(Exception e){ throw WrappedIOException.wrap("Caught exception processing input row ",e); } } }
关于打包的ant脚本,散仙会在文末上传附件,下面看下造的一些测试数据(注意,文件一定要上传到HDFS上,除非你是local模式):
- grunt> cat s.txt
- zhang san,12
- Song,34
- long,34
- abC,12
- grunt>
grunt> cat s.txt zhang san,12 Song,34 long,34 abC,12 grunt>
我们在看下,操作文件和jar包是放在一起的:
- grunt> ls
- hdfs://dnode1:8020/tmp/udf/pudf.jar<r 3> 1295
- hdfs://dnode1:8020/tmp/udf/s.txt<r 3> 36
- grunt>
grunt> ls hdfs://dnode1:8020/tmp/udf/pudf.jar<r 3> 1295 hdfs://dnode1:8020/tmp/udf/s.txt<r 3> 36 grunt>
最后,我们看下pig脚本的定义:
- --注册自定义的jar包
- REGISTER pudf.jar;
- --加载测试文件的数据,逗号作为分隔符
- a = load 's.txt' using PigStorage(',');
- --遍历数据,对name列转成大写
- b = foreach a generate com.pigudf.MyUDF((chararray)$0);
- --启动MapReduce的Job进行数据分析
- dump b
--注册自定义的jar包 REGISTER pudf.jar; --加载测试文件的数据,逗号作为分隔符 a = load 's.txt' using PigStorage(','); --遍历数据,对name列转成大写 b = foreach a generate com.pigudf.MyUDF((chararray)$0); --启动MapReduce的Job进行数据分析 dump b
最后,我们看下结果,只要过程不出现异常和任务失败,就证明我们的udf使用成功:
- Counters:
- Total records written : 4
- Total bytes written : 64
- Spillable Memory Manager spill count : 0
- Total bags proactively spilled: 0
- Total records proactively spilled: 0
- Job DAG:
- job_1419419533357_0147
- 2014-12-30 18:10:24,394 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - Success!
- 2014-12-30 18:10:24,395 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS
- 2014-12-30 18:10:24,396 [main] INFO org.apache.pig.data.SchemaTupleBackend - Key [pig.schematuple] was not set... will not generate code.
- 2014-12-30 18:10:24,405 [main] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 1
- 2014-12-30 18:10:24,405 [main] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1
- (ZHANG SAN,12)
- (SONG,34)
- (LONG,34)
- (ABC,12)
Counters: Total records written : 4 Total bytes written : 64 Spillable Memory Manager spill count : 0 Total bags proactively spilled: 0 Total records proactively spilled: 0 Job DAG: job_1419419533357_0147 2014-12-30 18:10:24,394 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - Success! 2014-12-30 18:10:24,395 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS 2014-12-30 18:10:24,396 [main] INFO org.apache.pig.data.SchemaTupleBackend - Key [pig.schematuple] was not set... will not generate code. 2014-12-30 18:10:24,405 [main] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 1 2014-12-30 18:10:24,405 [main] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1 (ZHANG SAN,12) (SONG,34) (LONG,34) (ABC,12)
结果没问题,我们的UDF加载执行成功,如果我们还想将我们的输出结果直接写入到HDFS上,可以在pig脚本的末尾,去掉dump命令,加入
store e into '/tmp/dongliang/result/'; 将结果存储到HDFS上,当然我们可以自定义存储函数,将结果写入数据库,Lucene,Hbase等关系型或一些NOSQL数据库里。
相关推荐
基于Hadoop网站流量日志数据分析系统 1、典型的离线流数据分析系统 2、技术分析 - Hadoop - nginx - flume - hive - mysql - springboot + mybatisplus+vcharts nginx + lua 日志文件埋点的 基于Hadoop网站流量...
本文利用搜狗搜索日志的500w条数据,对搜索日志进行了一系列的分析。主要分为两个阶段,第一阶段是数据准备、数据预处理和数据加载阶段,第二阶段为分析阶段。利用Hive等工具,完成30页的分析报告。
网站访问日志,可以用来进行Hadoop pig分析使用
一个通用的二进制日志数据分析工具系统源码。它能做什么? 分析任意格式的二进制数据,还能同时查看协议文档 逐字节、逐位分析 手动、自动分析 对分析结果建透视图,发现规律,学习协议 怎么做到的 工具以插件化...
本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)...
实验手册——搜狗搜索日志分析系统,压缩包里面是pdf格式和word格式的。 实验手册——搜狗搜索日志分析系统,可以练习使用hadoop离线分析。练手的吧。
基于Hadoop网站流量日志数据分析系统项目源码+教程.zip网站流量日志数据分析系统 典型的离线流数据分析系统 技术分析 hadoop nginx flume hive sqoop mysql springboot+mybatisplus+vcharts 基于Hadoop网站流量日志...
Pig运行在Hadoop上,是对大型数据集进行分析和评估的平台。它简化了使用Hadoop进行数据分析的要求,提供了一个高层次的、面向领域的抽象语言:PigLatin。通过PigLatin,数据工程师可以将复杂且相互关联的数据分析...
选题:搜狗日志查询分析 (MapReduce+Hive综合实验) 前提条件: 安装好hadoop2.8.0 安装好HQL 安装好Hive 安装好eclipse 选题要求: 解压数据源,并上传到hdfs,...思路:用MapReduce做数据清洗,用Hive来分析数据。
介绍了数据挖掘的定义,分析了日志数据面临的挑战及对其进行挖掘的原因。讨论了日志数据挖掘的需求,归纳了对日志数据挖掘的具体内容,总结了日志数据挖掘的具体应用。该研究对加强企事业单位计算机信息系统安全具有...
spark搜狗日志数据饭呢西实战源码(搜索结果和点击排名都是第一)
基于搜狗查询数据500w条使用MapReduce做数据清洗,hive做离线分析的项目,详细文档附数据连接,搜狗实验室的搜索数据下载后缺少了用户ID字段的数据,所以本分析采用的是完整的数据,大家可以放心下载,如果下载数据...
基于Logstash的日志数据采集和ELK可视化海量日志分析平台实战(全套视频+课件+代码+讲义+工具),具体内容包括: 01 Logstash的架构及运行流程 02 Logstash的数据采集案例(一) 03 Logstash的数据采集案例(二) 04...
个人使用文档 自己使用的一个 电商的项目分析 从大数据项目 web资源分析 日志获取 到数据处理 完整流程
常用的统计系统如Google Analytics等是在网页中加载一段JS代码来统计数据的。而一旦用户的网页没有打开或者...如:网站上出现的各种各样的错误,搜索引擎爬虫在网站上的行为等, 而这些对SEO的分析与决策都很重要。
基于Hadoop的Web日志分析项目源码(日志的清洗、统计分析、统计结果的导出、指标数据的Web展示)+项目说明.zip 包含如下 【主要分析统计的指标数据】 浏览量PV 访客数UV IP数 跳出率 【系统架构设计】 【数据库表结构...
java项目 基于Hadoop对网站日志数据分析 使用MapReduce框架进行分析,并包含150M的网站日志数据
此为网页日志文件,可用于大数据分析,希望可以帮助到大家
从日志统计到大数据分析.pdf
SQLSERVER 日志分析工具及使用文档 ,实用工具,可以根据日志数据还原,分析日志