最新文章列表

Apache Pig的前世今生

最近,散仙用了几周的Pig来处理分析我们网站搜索的日志数据,感觉用起来很不错,今天就写篇笔记介绍下Pig的由来,除了搞大数据的人,可能很少有人知道Pig是干啥的,包括一些是搞编程的,但不是搞大数据的,还包括一些既不是搞编程的,也不是搞大数据的,而是从事其他行业的朋友,所以很有可能望文生义,一看标题,就乐了,心里就开始默默的翻译了===》 Apache 猪的笔记,看起来Apache的猪,比较厉害啊,都 ...
qindongliang1922 评论(0) 有2178人浏览 2015-01-07 20:25

Apache Pig如何自定义UDF函数?

近日由于工作所需,需要使用到Pig来分析线上的搜索日志数据,散仙本打算使用hive来分析的,但由于种种原因,没有用成,而Pig(pig0.12-cdh)散仙一直没有接触过,所以只能临阵磨枪了,花了两天时间,大致看完了pig官网的文档,在看文档期间,也是边实战边学习,这样以来,对pig的学习,会更加容易,当然本篇不是介绍如何快速学好一门框架或语言的文章,正如标题所示,散仙打算介绍下如何在Pig中,使用 ...
qindongliang1922 评论(0) 有3665人浏览 2014-12-30 19:52

pig处理json格式数据,取top100

在如下数据类型中 文件A:这里面是sequenceFile格式文件,key是long型时间戳,value是一个Text类型字符串(是JSON格式) {"app":"bshare","data":{"ip":"1032096474","keyword":"%E6%9D% ...
scholltop 评论(0) 有2663人浏览 2014-10-20 17:40

pig:group by之后的其它统计方法一

pig:group by之后的其它统计方法一 复制代码 1 --测试Top N后的其它统计 2 A = LOAD '/TraceParser/blackcore/' USING PigStorage() as (lk_id:chararray,host:chararray); 3 --DUMP A; 4 5 B = GROUP A BY lk_id; 6 B = FOREACH B ...
pig 
scholltop 评论(0) 有889人浏览 2014-10-16 15:39

hadoop之在集群上跑Pig脚本语言

Step1:     我们要在本地创建一个存放数据的txt文件,我们命名为studentdata.txt里面存放的数据如下: 001:林:59 002:唐:100 003:施:61 004:王:78 005:张:76 006:李:52       Step2:        将本地创建的数据传到namenode下面,       先在我们的/mnt/tmp/下面 ...
MNTMs 评论(0) 有2323人浏览 2014-06-01 01:52

hadoop之Pig(一)--简介

          Pig  是一种探索大规模数据集的脚本语言。MapReducer的一个主要的缺点就是开发的周期太长了。我们要编写mapper和reducer,然后对代码进行编 ...
MNTMs 评论(0) 有1686人浏览 2014-05-31 02:17

Hadoop-Hive-Hbase-Sqoop相关技术分享

  http://lvwenwen.iteye.com/blog/1781980   大家好!欢迎大家加入:(141570425)吖大哥QQ技术交流群,在这 你可以将你的Hadoop领域的相关经验分享给大家,该群也会为大家免费分享很多关于Hadoop领域的技术文档、视频、资料及在线技术探讨会,期待你的加入!!!   http://yunpan.cn/QipHycMQIwWIS  访问 ...
wang吖 评论(0) 有968人浏览 2014-05-23 08:50

pig常用命令语句

PIG latin常用命令语句 1.LOAD : 指出载入数据的方法 2.FOREACH:逐行扫描金星某种处理 3.FILTER:过滤航 4.DUMP :把结果显示到屏幕 5.STORE:把结果保存到文件
雨一直下 评论(0) 有637人浏览 2014-05-11 17:06

pig安装测试

下载pig的安装文件:   http://mirrors.cnnic.cn/apache/pig/pig-0.12.1/pig-0.12.1.tar.gz 安装:   tar -zxvf pig-0.12.1.tar.gz 重命名:   mv pig-0.12.1 pig0.12 配置环境变量:   在cetos下 .bashrc   #add for pig0.12   export PIG_H ...
雨一直下 评论(0) 有614人浏览 2014-05-11 15:56

不能搜么

hive sqoop
byethen 评论(0) 有313人浏览 2014-04-23 23:00

PIG0.12 HBASE 0.96-PIG 读取HDFS文件插入HBASE问题解决

1.环境描述 已搭建HADOOP 2.2集群,1NameNode,3DataNode,可用 已安装配置Pig0.12,可用   已安装配置HBase 0.96集群,1MASTER,3RegionServer 2.问题描述     按照网上或者相关例子,pig读取一个文件内容,使用HBaseStorage进行Store,第一个遇到的问题是WritableByt ...
cctype 评论(0) 有2136人浏览 2014-03-21 15:06

Pig – 大数据分析平台

wget http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gz tar -xzvf pig-0.11.1.tar.gz sudo vi /etc/profile 增加:       export PIG_HOME=/home/ysc/pig-0.11.1 exportPATH=$PATH:$PIG_HO ...
wbj0110 评论(0) 有867人浏览 2014-03-15 20:26

Hadoop家族安装系列(4)——pig0.12安装

在Hadoop1.2.1分布式集群环境下安装pig0.12   ● 前言: 1. 大家最好通读一遍过后,在理解的基础上再按照步骤搭建。 2. 之前写过几篇文章是关于Hadoop家族安装系列的,后续还会有其它内容,敬请期待! 3. 好记性不如烂笔头,最近突然想把自己学习的东西整理出来,一则服务大众,二则以后好查阅。由于水平有限,难免有错误,请多谅解并指正,如有什么问题可以留言咨询。 一、 ...
cumtheima 评论(0) 有4140人浏览 2014-03-09 11:31

hadoop中的数据序列化及数据类型

序列化是干什么用的?本质上讲,就是数据保存到虚拟机之外,然后又被读到虚拟机内.如果仅仅是保存,不关心能读进jvm的话,就不关心序列化问题了.正是因为需要被读进jvm,所以必须识别写出、读入的数据格式、字符顺序等问题。因此序列化也就是比较重视的事情了。拿密码来打比方。序列化就像加密,反序列化就像解密。只加密不解密那肯定是不行的。hdfs作为分布式存储系统必然涉及到序列化问题。       hd ...
wbj0110 评论(0) 有828人浏览 2014-02-10 15:20

大数据潮流已经来临 ---- ITSoku带你一周快速掌握Hadoop开发与实战!

大数据的潮流已经来临,未来也将是数据的时代,Hadoop正是为大数据而来,为此ITSoku搜集了目前最好的相关视频,然后进行整理出能让我们在最短的时间中掌握该技术的整套视频专辑,分享给各位想学习Hadoop的朋友们,只希望大家学习Hadoop更容易更高效一些。   1. 炼数成金 hadoop 视频教程 (此专辑更注重于理论) 2.Hadoop实战视频专辑 (此专辑更注重于实战)   以 ...
lk557 评论(8) 有4528人浏览 2013-12-16 10:24

pig自定义输出文件名,重写StoreFunc

  需要实现四个方法: getOutputFormat() prepareToWrite(RecordWriter writer) putNext(Tuple tuple) setStoreLocation(String location, Job job)     setStoreLocation(String location, Job job) 设置 ...
essen 评论(0) 有1402人浏览 2013-12-06 17:04

大数据系列5:Pig – 大数据分析平台

wget http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gz tar -xzvf pig-0.11.1.tar.gz sudo vi /etc/profile 增加: export PIG_HOME=/home/ysc/pig-0.11.1 exportPATH=$PATH:$PIG_HOME/bin so ...
yangshangchuan 评论(0) 有6427人浏览 2013-10-04 02:06

最近博客热门TAG

Java(141744) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54919) .net(54785) Web(54514) 工作(54118) Linux(50905) Oracle(49875) 应用服务器(43289) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37267) 数据结构(36424)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics