最新文章列表

linux pig 安裝使用

  0.准备工作 hadoop 服务器 10.156.50.35 yanfabu2-35.base.app.dev.yf zk1 hadoop1 master1 master 10.156.50.36 yanfabu2-36.base.app.dev.yf zk2 hadoop2 master2 10.156.50.37 yanfabu2-37.base.app.dev.yf zk3 ...
knight_black_bob 评论(0) 有1538人浏览 2019-06-14 09:52

大数据之Hadoop初识篇

Hadoop介绍 (直奔主题) 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括HDFS,MapReduce基本组件与扩展组件Pig、Hive、Hbase、Sqoop、Flume、ZooKeeper和Spark等。 以下地址是详细介绍: http://www.toutiao.com/i641167 ...
yanshien 评论(0) 有357人浏览 2017-05-15 22:46

Pig script failed to parse: NoViableAltException(84@[])

出现以下错误的主要原因就是filter 语句的逻辑有问题,可以看看by关键词后面的部分。 ERROR 1200: Pig script failed to parse: NoViableAltException(84@[]) org.apache.pig.impl.logicalLayer.FrontendException: ERROR 1000: Error during parsi ...
商人shang 评论(0) 有2350人浏览 2016-11-01 18:32

关于pig是否可以匹配中文字符

我在一个叫http://www.codelast.com/%E5%8E%9F%E5%88%9Bpig%E4%B8%AD%E7%9A%84%E4%B8%80%E4%BA%9B%E5%9F%BA%E7%A1%80%E6%A6%82%E5%BF%B5%E6%80%BB%E7%BB%93/编码无悔的博客中发现了一个有趣的问题,也解决了我之前关于在Pig中,中文是否可以匹配的问题。答案是可以的,但要将代码打包 ...
Pig 
peterpan007 评论(0) 有1182人浏览 2016-03-28 12:54

pig的函数

判断某个网站的前缀,并给其打上特定的标签值: 一个java代码例子如下: Java代码 public String  getTag(){       //url文本       String url="http://www.baidu.com.cn";       //标签值       String tags=null;       if( ...
pig 
weitao1026 评论(0) 有502人浏览 2016-01-16 14:37

pig的入门

在这里贴一个pig源码的分析,做pig很长时间没做笔记,不包含任何细节,以后有机会再说吧 http://blackproof.iteye.com/blog/1769219   hadoop pig入门总结 pig简介 pig数据类型 pig latin语法 pig udf自定义 pig derived衍生 推荐书籍 programming pig 推荐网站 http://p ...
pig 
weitao1026 评论(0) 有664人浏览 2016-01-16 14:36

Hive集成Tez让大象飞起来

基础环境 Apache Hadoop2.7.1 Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Hive1.2.1 Apache Tez0.7.0 Apache Pig0.15.0 Apache oozie4.2.0 Apache Spark1.6.0 Cloudrea Hue3.8.1 安装Tez,请参考上篇 ...
qindongliang1922 评论(0) 有3072人浏览 2016-01-15 16:52

Apache Tez0.7编译笔记

目前最新的Tez版本是0.8,但还不是稳定版,所以大家还是先下载0.7用吧 下载地址: wget http://archive.apache.org/dist/tez/0.7.0/apache-tez-0.7.0-src.tar.gz 由于编译Tez-UI模块,需要使用nodejs,所以建议还是 提前安装nodejs 和npm工具,安装方式,可以下载源码安装 也可以yum安装,安装步骤: ...
qindongliang1922 评论(0) 有2427人浏览 2016-01-15 16:33

Bug死磕之hue集成的oozie+pig出现资源任务死锁问题

这两天,打算给现有的Apache Hadoop2.7.1的集群装个hue,方便业务人员使用hue的可视化界面,来做一些数据分析任务,这过程遇到不少问题,不过大部分最 ...
qindongliang1922 评论(0) 有3754人浏览 2016-01-14 15:52

Pig0.12.0和Solr4.10.2一些问题

遇到的有关Pig0.12.0和Solr4.10.2一些问题,总共有3个,如下: (1)问题一: 如何在Pig中使用ASCII和十六进制(hexadecimal)的分隔符进行加载,和切分数据? 注意关于这个问题,在Pig中,会反应到2个场景中, 第一: 在Pig加载(load)数据时候 。 第二: 在Pig处理split,或则正则截取数据的时候。 先稍微说下,为啥使用十六进制的字段分隔符,而不是我 ...
pig 
weitao1026 评论(0) 有618人浏览 2016-01-14 10:09

pig使用问题总结

1,如果是a::tags#'pic'作为参数,传递给另一个函数方法,需要转义多次, 二次调用函数,就是这个方法里,又调用了其他方方法,参数也是层层传递,需要转义两次,尤其是map里的函数, C1 = two_use_cart_filter_by_clkloc_distinct_vid_and_ic(C,0,2,'vid','cvid','tags#\\\'pic\\\'','cpic') ; 一 ...
pig 
weitao1026 评论(0) 有485人浏览 2016-01-14 10:07

Pig系列的学习文档

Pig系列的学习文档,希望对大家有用,感谢关注散仙! Apache Pig的前世今生 Apache Pig如何自定义UDF函数? Apache Pig5行代码怎么实现Hadoop的WordCount? Apache Pig入门学习文档(一) Apache Pig学习笔记(二) Apache Pig学习笔记之内置函数(三)
pig 
weitao1026 评论(0) 有543人浏览 2016-01-14 10:07

Pig字符串截取

记录一个Pig字符串截取的实战小例子: 需求如下,从下面的字符串里提取出第2列(冒号后面)的值: Java代码   1 2  3 4   a:ab#c#d   a:c#c#d   a:dd#c#d   a:zz#c#d   1 2 3 4 a:ab#c#d a:c#c#d a:dd#c#d a:zz#c#d 如果是在java里,方法可能有很多 ...
pig 
weitao1026 评论(0) 有646人浏览 2016-01-14 10:07

pig自定义UDF

GMV(一定时间内的成交总额)是一个衡量电商网站营业收入的一项重要指标,例如淘宝,京东都有这样的衡量标准,感兴趣的朋友可以自己科普下这方面的概念知识。 当然散仙今天,并不是来解释概念的,而是记录下最近工作的一些东西,原来我们平台的GMV只有一个总的成交金额,并没有细分到各个系统的GMV的比重,比如搜索端,推荐端,移动端等等。 通过细粒度的分析各个系统所占的比重,对于指导各个系统完善和发展有一定的 ...
pig 
weitao1026 评论(0) 有580人浏览 2016-01-13 10:19

Pig里面内置大量的工具函数

Pig里面内置大量的工具函数,也开放了大量的接口,来给我们开发者使用,通过UDF,我们可以非常方便的完成某些Pig不直接支持或没有的的功能,比如 ...
pig 
weitao1026 评论(0) 有623人浏览 2016-01-13 10:18

如何把Pig的结果存储到Solr中

如何把Pig的结果存储到Solr中,那么可能就会有朋友问了,为什么不存到数据库呢? 不支持还是? 其实只要我们愿意,我们可以存储它的结果集到任何地方,只需要重写我们自己的StoreFunc类即可。 关于如何将Pig分析完的结果存储到数据库,在pig的piggy贡献组织里,已经有了对应的UDF了,piggybank是非apache官方提供的工具函数,里面的大部分的UDF都是,其他公司或着个人在后来 ...
pig 
weitao1026 评论(0) 有470人浏览 2016-01-13 10:18

使用Ansj分词器+Pig来统计中文的词频

使用Ansj分词器+Pig来统计中文的词频,Pig的TOKENIZE只支持对英文句子的切分,为什么呢?因为英文的句子非常工整,都是以空格作为分割符的,而相当于中文来说,则不一样,中文的切分,需要有词库支持,才能分割出一个个词汇,或者比较暴力一点的,直接根据算法进行Ngram,也不需要词库支持,但这样切分出来的词汇,可能大部分时候都不太友好,意义也不太大,目前比较不错的开源的分词器有ansj,ik ...
pig 
weitao1026 评论(0) 有901人浏览 2016-01-11 14:43

pig的第一个程序

初学编程的人,都知道hello world的含义,当你第一次从控制台里打印出了hello world,就意味着,你已经开始步入了编程的大千世界,这和第一个吃螃蟹的人的意义有点类似,虽然这样比喻并不恰当。 如果说学会了使用hello world就代表着你踏入了单机编程的大门,那么学会在分布式环境下使用wordcount,则意味着你踏入了分布式编程的大门。试想一下,你的程序能够成百上千台机器的集群中 ...
pig 
weitao1026 评论(0) 有570人浏览 2016-01-11 14:42

使用到Pig来分析线上的搜索日志数据

使用到Pig来分析线上的搜索日志数据,散仙本打算使用hive来分析的,但由于种种原因,没有用成,而Pig(pig0.12-cdh)散仙一直没有接触过,所以只能临阵磨枪了,花了两天时间,大致看完了pig官网的文档,在看文档期间,也是边实战边学习,这样以来,对pig的学习,会更加容易,当然本篇不是介绍如何快速学好一门框架或语言的文章,正如标题所示,散仙打算介绍下如何在Pig中,使用用户自定义的UDF ...
pig 
weitao1026 评论(0) 有649人浏览 2016-01-10 01:21

Apache Pig中如何使用Replace函数

今天分享一个小案例,介绍下需求,判断某个网站的前缀,并给其打上特定的标签值: 一个java代码例子如下: public String getTag(){ //url文 ...
qindongliang1922 评论(0) 有1477人浏览 2015-11-17 18:48

最近博客热门TAG

Java(141744) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37267) 数据结构(36424)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics