Pig使用问题总结

qindongliang1922

浏览: 2147122 次
性别:
来自: 北京

最近访客更多访客>>

godandghost

youhere

tanss

fengshuo850420

博主相关

博客

微博

相册

留言

关于我

博客专栏

: 证道Lucene4
浏览量：116320

: 证道Hadoop
浏览量：124587

: 证道shell编程
浏览量：58453

: ELK修真
浏览量：70348

文章分类

社区版块

存档分类

博客分类：

Hadoop pig

1,如果是a::tags#'pic'作为参数，传递给另一个函数方法，需要转义多次,

二次调用函数，就是这个方法里，又调用了其他方方法，参数也是层层传递，需要转义两次，尤其是map里的函数，
C1 = two_use_cart_filter_by_clkloc_distinct_vid_and_ic(C,0,2,'vid','cvid','tags#\\\'pic\\\'','cpic') ;

一次调用函数，只需转一次即可
cx = get_distinct_data_by_field(cx,B::vid,'bvid','B::tags#\'pic\'','bpic') ;

2,在pig函数中，如果传入的变量join后有别名的标量，不要使用A:tags#'et'语法写,直接使用tags#'et'引用

3,在function脚本中，
注册变量，必须使用单引号引起来 ,如下
REGISTER '/home/lib/dhpig.jar';
REGISTER '/home/lib/event-log.jar';
在非函数脚本中，则不需要

4, 在a.pig脚本中，如果引用了一个函数脚本function.pig，则注意a脚本的参数名字，不能和function.pig脚本中函数名字一样

5，单引号里嵌套单引号，需要转义使用

6，在a.pig中，引用了一个b.pig 如果b.pig 里面定义了一个函数，然后别名x，
在a.pig里面使用 x2 = getx()接收，此时需要注意，x2 不能够和b.pig里面的函数里面加载数据的schema的别名一样，如果getx里面
有这么一段代码：
bb = load 'xx' as (x2:chararray)

7, a和b通过join后的得到的一个结果集r，如果传给下一个函数使用时，需要采用r::a::xx引用
如果有扩展字段，可以使r::a::map#'field'引用

8, 在使用转换一些类型时候，如果默认不设置任何schema，那么它将会是bytearray类型，如果想进行一些join操作，或者union，cross操作时，
一定要确保两边的join键的字符类型一致
ho = join $a by bvik left outer , $b by okey; ，如果bvik和okey的字符类型不一致，那么将会出现如下异常：
int errCode = 1075;
String msg = "Received a bytearray from the UDF. Cannot determine how to convert the bytearray to string.";
所以在，进行join前，一定确保类型一致，如下面的pig语句：$11和$3是要明确声明所属类型的
mz = foreach mf generate CONCAT((chararray)$11,(chararray)$3) as vidic , $4 as gno:chararray ;
mp = group mz by vidic;
$ord = foreach mp generate group as okey , BagToString($1.$1,'#') as rfxnos ;

分享到：

Apache Pig和Solr问题笔记（一） | ElasticSearch入门之风花雪月（五）

2015-03-29 18:39
浏览 1019
评论(0)
论坛回复 / 浏览 (0 / 1188)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论