Debug:
1、
A = LOAD '/user/hue/task.txt' USING PigStorage(' ')
AS (col1,col2,col3);
DUMP A;
//输出结果前几行示例:
(>ggsnPDPRecord(21),,)
(-->recordType(0),,)
(-->networkInitiation(1),,)
(-->servedIMSI(3),,)
(-->ggsnAddress(4),,)
(---->iPTextV4Address(2),,)
//只显示了第一列,后面两列是空的,因为第一列和第二、三列之间间隔多个空格
2、
A = LOAD '/user/hue/task.txt' USING PigStorage(',')
AS (col1,col2,col3);
DUMP A;
//输出结果前几行示例:
(>ggsnPDPRecord(21),,)
(-->recordType(0) value: ggsnPDPRecord(19),,)
(-->networkInitiation(1) value: false(0),,)
(-->servedIMSI(3) value: 0x460026676534541f,,)
(-->ggsnAddress(4),,)
(---->iPTextV4Address(2) value: 221.177.57.165,,)
(-->chargingID(5) value: 1192448557,,)
//因为数据中没有逗号,所以每一行只是一个字段显示
3、尝试查找“-->servedIMSI(3)”
A = LOAD '/user/hue/task.txt' USING PigStorage(':') --划分方式为引号
AS (col1,col2); --划分为两个字段
B = FILTER A BY col1 matches'-->servedIMSI(3) value';
DUMP B;
//成功运行,但是没有输出结果
4、
A = LOAD '/user/hue/task.txt' USING PigStorage(':') --划分方式为引号
AS (col1,col2); --划分为两个字段
B = FILTER A BY col1 == '-->servedIMSI(3) value';
DUMP B; --STORE B INTO 'output/IMSI.csv';可以另存
//成功输出了servedIMSI(3)相关的内容
A = LOAD '/user/hue/task.txt' USING PigStorage(':') --划分方式为引号
AS (col1,col2); --划分为两个字段
B = FILTER A BY col1 == '-->chargingID(5) value';
STORE B INTO 'output/chargingID.csv';
//成功导出chargingID(5)
A = LOAD '/user/hue/task.txt' USING PigStorage(':') --划分方式为引号
AS (col1,col2); --划分为两个字段
B = FILTER A BY col1 == '-->recordOpeningTime(13) value';
STORE B INTO 'output/recordOpeningTime.csv';
//导出-->recordOpeningTime(13)
A = LOAD '/user/hue/task.txt' USING PigStorage(':') --划分方式为引号
AS (col1,col2); --划分为两个字段
B = FILTER A BY col1 == '-->duration(14) value';
STORE B INTO 'output/duration.csv';
//导出-->duration(14)
A = LOAD '/user/hue/task.txt' USING PigStorage(':') --划分方式为引号
AS (col1,col2); --划分为两个字段
B = FILTER A BY col1 == '-->nodeID(18) value';
STORE B INTO 'output/nodeID.csv';
//导出-->nodeID(18)
5、取出IMEISV的数据(含空格)
A = LOAD '/user/hue/task.txt' USING PigStorage(':') --划分方式为引号
AS (col1,col2); --划分为两个字段
B = FILTER A BY col1 == '-->servedIMEISV(29) value';
C = FOREACH B GENERATE col2; --取第二个字段
DUMP C;--STORE C INTO 'output/IMEISV_2.csv';
6、取出IMEISV的数据(不含空格)
A = LOAD '/user/hue/output/IMEISV_2.csv' USING PigStorage(' ') --划分方式为引号
AS (col1,col2); --划分为两个字段
B = FILTER A BY col1 == '-->servedIMEISV(29) value';
C = FOREACH B GENERATE col1; --取第一个字段
STORE C INTO 'output/IMEISV.csv';
//无论取字段一还是字段二,取出来的都是空
A = LOAD '/user/hue/output/IMEISV_2.csv' AS(col1);
B = FOREACH A GENERATE CONCAT('1', (chararray)col1);
STORE B INTO 'output/IMEISV_1.csv';
//在每一行字段前面加上一个1
A = LOAD '/user/hue/output/IMEISV_1.csv' USING PigStorage(' ') AS(col1,col2);
B = FOREACH A GENERATE col2;
STORE B INTO 'output/IMEISV.csv';
//取出正式的数据
_整理____________________________________________________________________________________________
step1
A = LOAD '/user/hue/task.txt' USING PigStorage(':') --划分方式为引号
AS (col1,col2); --划分为两个字段
B = FILTER A BY col1 == '-->servedIMEISV(29) value';
C = FOREACH B GENERATE col2; --取第二个字段
STORE C INTO 'output/IMEISV_2.csv';
step2
A = LOAD '/user/hue/output/IMEISV_2.csv' AS(col1);
B = FOREACH A GENERATE CONCAT('1', (chararray)col1);
STORE B INTO 'output/IMEISV_1.csv';
step3
A = LOAD '/user/hue/output/IMEISV_1.csv' USING PigStorage(' ') AS(col1,col2);
B = FOREACH A GENERATE col2;
STORE B INTO 'output/IMEISV.csv';
________________________________________________________________________________________________
7、
A = LOAD '/user/hue/output/IMEISV.csv' AS (col);
B = FOREACH A GENERATE SUBSTRING(col,2,8);
DUMP B;
STORE B INTO '/user/hue/output/sixnumber.csv';
//截取了前3-9位
分享到:
相关推荐
熟悉常用的Linux操作和Hadoop操作
Hadoop 大数据方向 mapreduce计算中的二次排序,讲解透彻
Hadoop豆瓣电影数据分析(Hadoop)操作源码
熟悉常用的Linux操作和Hadoop操作.docx
基于hadoop Java接口 文件操作类,对hadoop服务进行增删改查等系列操作,非常实用
Hadoop安装教程_单机_伪分布式配置
详细的hadoop单机配置步骤,非常好的一个文档。
Hadoop Spark生态系统操作与实战指南
数据科学导论 实验1:常用Linux操作和 Hadoop操作 1、Linux虚拟机安装和操作 2、Hadoop安装和操作 1)创建Hadoop用户 2)SSH登录权限设置 3)安装Java环境 4)单机安装配置 5)伪分布式安装配置
[Packt Publishing] Hadoop 集群操作管理技巧 (英文版) [Packt Publishing] Hadoop Operations and Cluster Management Cookbook (E-Book) ☆ 图书概要:☆ Over 60 recipes showing you how to design, ...
银河麒麟服务器操作系统 V4 hadoop 软件适配手册 包含Hadoop的环境配置,以及文件的配置。
在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path追加%HADOOP_HOME%\bin,有可能出现如下错误: org.apache.hadoop.io.nativeio.NativeIO$Windows....
本书从Hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。全书共16章,3个附录,涉及的主题包括:Haddoop简介;MapReduce简介;Hadoop分布式文件系统;Hadoop...
hadoop-2.6.0单机模式配置文件,利用该配置可以成功启动Hadoop
Hadoop环境安装设置(最简单的hadoop单机环境部署教程) 安装前设置 SSH设置和密钥生成 安装Java.下载Java (JDK<最新版> - X64 .....Hadoop操作模式 在单机模式下安装Hadoop.... 模拟分布式模式安装Hadoop 验证Hadoop安装
在Win10上使用eclipse进行hadoop集群Java Api操作的hadoop2.7.4安装包
Hadoop是分布式计算模型,用于分布式计算,包括分布式文件系统HDFS和计算系统MapReduce,二进制安装包,解压以后就可以使用
Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04
HDFS是hadoop平台的核心组成之一。熟悉使用hadoop平台需要熟练访问HDFS。HDFS的访问方式有多种。...基本操作有对文件的读、写、追加、删除等。新建文件夹、删除文件夹等。还可显示文件及文件夹的属性。