- 浏览: 2147249 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (682)
- 软件思想 (7)
- Lucene(修真篇) (17)
- Lucene(仙界篇) (20)
- Lucene(神界篇) (11)
- Solr (48)
- Hadoop (77)
- Spark (38)
- Hbase (26)
- Hive (19)
- Pig (25)
- ELK (64)
- Zookeeper (12)
- JAVA (119)
- Linux (59)
- 多线程 (8)
- Nutch (5)
- JAVA EE (21)
- Oracle (7)
- Python (32)
- Xml (5)
- Gson (1)
- Cygwin (1)
- JavaScript (4)
- MySQL (9)
- Lucene/Solr(转) (5)
- 缓存 (2)
- Github/Git (1)
- 开源爬虫 (1)
- Hadoop运维 (7)
- shell命令 (9)
- 生活感悟 (42)
- shell编程 (23)
- Scala (11)
- MongoDB (3)
- docker (2)
- Nodejs (3)
- Neo4j (5)
- storm (3)
- opencv (1)
最新评论
-
qindongliang1922:
粟谷_sugu 写道不太理解“分词字段存储docvalue是没 ...
浅谈Lucene中的DocValues -
粟谷_sugu:
不太理解“分词字段存储docvalue是没有意义的”,这句话, ...
浅谈Lucene中的DocValues -
yin_bp:
高性能elasticsearch ORM开发库使用文档http ...
为什么说Elasticsearch搜索是近实时的? -
hackWang:
请问博主,有用solr做电商的搜索项目?
Solr中Group和Facet的用法 -
章司nana:
遇到的问题同楼上 为什么会返回null
Lucene4.3开发之第八步之渡劫初期(八)
今天写了关于Pig的EvalFunc UDF函数,结果一执行,发现返回值,总是bag类型,我就纳闷了,我明明指定了返回是String类型,怎么会变成Bag类型呢?经查找,发现拷贝的问题,由于先前写的UDF函数,返回值是多个,而现在的这个是一个,所以导致,我在pig脚本里面,进行强转string类型出错,发现问题后,设置返回类型为DataType.CHARARRAY问题得以解决。
案例(一),输入值为多个参数,返回也为多个参数
package com.easy.pig; import com.easy.similar.model.ResultModel; import com.easy.similar.tools.TextBuildID; import org.apache.pig.EvalFunc; import org.apache.pig.data.*; import org.apache.pig.impl.logicalLayer.schema.Schema; import java.io.IOException; /** * Created by qindongliang on 2015/9/29. * 根据一篇内容返回md5和关键词words */ public class FingerUDF extends EvalFunc<DataBag> { /**tuple实例**/ TupleFactory mTupleFactory = TupleFactory.getInstance(); /**Bag实例*/ BagFactory mBagFactory = BagFactory.getInstance(); /**md5构建**/ TextBuildID textBuildID = new TextBuildID(); @Override public DataBag exec(Tuple tuple) throws IOException { try { DataBag output = mBagFactory.newDefaultBag(); Object o = tuple.get(0); //返回多少句子 int num_sentence = Integer.parseInt(tuple.get(1).toString()); //返回几个关键词 int num_words = Integer.parseInt(tuple.get(2).toString()); //使用指纹算法 1 还是分词算法 2 int type=Integer.parseInt(tuple.get(3).toString()); //参与扩展计算的指纹,null的直接返回空 String ext=tuple.get(4)==null?"":tuple.get(4).toString(); //设置句子数量 textBuildID.top_N_Sentence=num_sentence; //设置返回指纹数量 textBuildID.top_N_Words=num_words; //设置去重算法类型 textBuildID.type=type; ResultModel ro=textBuildID.buildID(o.toString(),ext); output.add(mTupleFactory.newTuple(ro.getMd5()));//获取md5值 output.add(mTupleFactory.newTuple(ro.getWords()));//获取指纹关键词 return output; } catch (Exception ee) { // error handling goes here ee.printStackTrace(); } return null; } /**描述scheaml形式*/ public Schema outputSchema(Schema input) { try{ Schema bagSchema = new Schema(); bagSchema.add(new Schema.FieldSchema("token", DataType.CHARARRAY)); return new Schema(new Schema.FieldSchema(getSchemaName(this.getClass().getName().toLowerCase(), input), bagSchema, DataType.BAG)); }catch (Exception e){ return null; } } }
案例(二),输入值为String,返回也为String
package com.easy.pig; import org.apache.pig.EvalFunc; import org.apache.pig.data.DataType; import org.apache.pig.data.Tuple; import org.apache.pig.impl.logicalLayer.schema.Schema; import java.io.IOException; /** * 处理url */ public class UrlCvUDF extends EvalFunc<String> { @Override public String exec(Tuple tuple) throws IOException { try { Object o = tuple.get(0); if(o!=null){ //判断是否为指定url开头的来源 if((o+"").startsWith("http://www.court.gov.cn")){ return "1"; }else{ return "2"; } } } catch (Exception ee) { ee.printStackTrace(); } //url 为null 则返回0 return "0"; } // /**描述scheaml形式*/ public Schema outputSchema(Schema input) { try{ Schema bagSchema = new Schema(); bagSchema.add(new Schema.FieldSchema("token", DataType.CHARARRAY)); //注意此处返回值要与泛型里面的对应 return new Schema(new Schema.FieldSchema(getSchemaName(this.getClass().getName().toLowerCase(), input), bagSchema, DataType.CHARARRAY)); }catch (Exception e){ e.printStackTrace(); return null; } } }
案例一的pig脚本:
--SET debug 'on' --REGISTER ./aa.jar REGISTER ./udf-pig-similarty-hbase-1.0-SNAPSHOT-jar-with-dependencies.jar REGISTER ./pig-udf-extend-1.0.1-SNAPSHOT-jar-with-dependencies.jar --mkdir /user/webmaster/crawldb/finger/ --rmf /user/webmaster/crawldb/finger/ mkdir /user/webmaster/search/monitor/finger-data; rmf /user/webmaster/search/monitor/finger-data; set job.name 'pig-hbase-build-index' a = load 'hbase://ETLDB' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('content:conn content:casenum,meta:isdelete','-loadKey true '); --a = foreach a generate FLATTEN(com.easy.pig.FingerUDF((chararray)$1)); -- 4个参数 0:文章内容 1:前n最长的句子数,2:前n关键词,3:判重算法, 1=>指纹 2=>分词 a = foreach a generate $0 as rowkey:chararray , BagToString(com.easy.pig.FingerUDF((chararray)$1,5,8,1,$2),'@') as info:chararray,$2 as casenum:chararray , $3 as isdel:chararray ; --a = foreach a generate $2 as num:chararray; --a = limit a 50; --dump a; --describe a; a = foreach a generate $0 as rowkey:chararray , STRSPLIT(info,'@',2).$0 as finger_md5:chararray ,STRSPLIT(info,'@',2).$1 as finger_content:chararray ,casenum,isdel ; --describe a; store a into '/user/webmaster/search/monitor/finger-data' using com.pig.support.lucene.LuceneStore('row:true:false,finger_md5:true:false,finger_content:true:false,casenum:true:false,isdel:true:false','default');
案例二的pig脚本:
--SET debug 'on' --REGISTER ./aa.jar REGISTER ./udf-pig-similarty-hbase-1.0-SNAPSHOT-jar-with-dependencies.jar REGISTER ./pig-udf-extend-1.0.1-SNAPSHOT-jar-with-dependencies.jar --mkdir /user/webmaster/crawldb/finger/ --rmf /user/webmaster/crawldb/finger/ mkdir /user/webmaster/search/monitor/finger-data; rmf /user/webmaster/search/monitor/finger-data; set job.name 'pig-hbase-build-index' a = load 'hbase://ETLDB' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('content:conn content:casenum meta:isdelete content:url','-loadKey true '); --a = foreach a generate FLATTEN(com.easy.pig.FingerUDF((chararray)$1)); -- 4个参数 0:文章内容 1:前n最长的句子数,2:前n关键词,3:判重算法, 1=>指纹 2=>分词 a = foreach a generate $0 as rowkey:chararray , BagToString(com.easy.pig.FingerUDF((chararray)$1,5,8,1,''),'@') as info:chararray,$2 as casenum:chararray , $3 as isdel:chararray, com.easy.pig.UrlCvUDF((chararray)$4) as source:chararray ; --a = foreach a generate $2 as num:chararray; a = limit a 11; dump a; describe a; --describe a; --a = foreach a generate $0 as rowkey:chararray , STRSPLIT(info,'@',2).$0 as finger_md5:chararray ,STRSPLIT(info,'@',2).$1 as finger_content:chararray ,casenum,isdel ; --describe a; --store a into '/user/webmaster/search/monitor/finger-data' using com.pig.support.lucene.LuceneStore('row:true:false,finger_md5:true:false,finger_content:true:false,casenum:true:false,isdel:true:false','default');
发表评论
-
Apache Tez0.7编译笔记
2016-01-15 16:33 2429目前最新的Tez版本是0.8,但还不是稳定版,所以大家还 ... -
Bug死磕之hue集成的oozie+pig出现资源任务死锁问题
2016-01-14 15:52 3756这两天,打算给现有的 ... -
Apache Pig中如何使用Replace函数
2015-11-17 18:48 1480今天分享一个小案例, ... -
Pig0.15集成Tez,让猪飞起来
2015-06-29 19:45 17881,Tez是什么? Tez是Hortonworks公司开源 ... -
CDH-Hadoop2.6+ Apache Pig0.15安装记录
2015-06-26 20:06 26891,使用CDH的hadoop里面有对应的组件Pig,但版本较低 ... -
Pig配置vim高亮
2015-05-01 17:14 1568(1) 下载文末上传的压缩包,上到对应的linux机器上,并 ... -
Hadoop2.2如何集成Apache Pig0.12.1?
2015-05-01 16:48 909散仙假设你的Hadoop环境已经安装完毕 (1)到ht ... -
Apache Pig和Solr问题笔记(一)
2015-04-02 13:35 2000记录下最近两天散仙在工作中遇到的有关Pig0.12.0和Sol ... -
Pig使用问题总结
2015-03-29 18:39 10201,如果是a::tags#'pic'作为参数,传递给另一个函 ... -
玩转大数据系列之Apache Pig高级技能之函数编程(六)
2015-03-18 21:57 2101原创不易,转载请务必注明,原创地址,谢谢配合! http:/ ... -
Apache Pig字符串截取实战小例子
2015-03-13 17:23 2232记录一个Pig字符串截取的实战小例子: 需求如下,从下面的字 ... -
玩转大数据系列之Apache Pig如何通过自定义UDF查询数据库(五)
2015-03-12 21:06 1873GMV(一定时间内的成交 ... -
玩转大数据系列之如何给Apache Pig自定义存储形式(四)
2015-03-07 20:35 1122Pig里面内置大量的工具函数,也开放了大量的接口,来给我们开发 ... -
玩转大数据系列之Apache Pig如何与MySQL集成(三)
2015-03-07 19:43 2561上篇介绍了如何把Pig的结果存储到Solr中,那么可能就会有朋 ... -
玩转大数据系列之Apache Pig如何与Apache Solr集成(二)
2015-03-06 21:52 1472散仙,在上篇文章中介绍了,如何使用Apache Pig与Luc ... -
玩转大数据系列之Apache Pig如何与Apache Lucene集成(一)
2015-03-05 21:54 2849在文章开始之前,我们 ... -
Apache Pig学习笔记之内置函数(三)
2015-03-03 19:53 48271 简介 Pig附带了一些 ... -
Apache Pig学习笔记(二)
2015-02-13 19:23 3054主要整理了一下,pig里 ... -
你有一个好的归档习惯吗?
2015-02-11 22:01 1827备忘和扯一扯最近散仙 ... -
Apache Pig入门学习文档(一)
2015-01-20 20:28 31741,Pig的安装 (一)软件要求 (二)下载Pig ...
相关推荐
apache pig 基础及应用,urldecode row_number web日志分析 根据 用户行为 做出 简易的 相似度 判断。
pig udf,实现了 urldecode、 row_number、 tomap.版本使用cdh4.1.2,如果需要在别的版本中使用,请替换工程文件中的两个jar包,对应您需要的版本。
pig官方的udf教程,介绍了 Writing Java UDFs Writing Python UDFs Writing JavaScript UDFs Writing Ruby UDFs Piggy Bank,一个开源pig的udf包,主要是java
pig udf 示例
FromJsonInferSchema :包装 JsonLoader 以将字符数组(字符串)字段中的 JSON 转换为 Map 的 Pig UDF。 推断输出的模式。 FromJsonWithSchema :与 FromJsonInferSchema 类似,但您提供架构。 这些工具适用于 ...
PigIp工具关于这是一组Apache Pig Java UDF实用程序,可使用, , , 和其他,帮助我们提高生产效率。执照 。快速开始这基本上是如何使用库的所有IP功能的示例 -- Register PigIpTools library ...
一组用于处理Internet域名的Apache Drill UDF UDFs 有一个UDF: suffix_extract(domain-string) :给定一个有效的互联网域名(FQDN或其他方式),这将返回一个地图的领域tld , assigned , subdomain和hostname的...
一个Apache Drill UDF,用于通过 Java库处理Twitter tweet文本。 UDFs tw_parse_tweet(string) :解析tweet文本并返回具有以下命名值的地图列: weightedLength :(整数)tweet的总长度,其中代码点按配置文件中...
Apache Drill UDF用于检索和使用HTML文本 基于库。 注意:这绝对是一个在制品。 UDFs soup_read_html(url-string, timeout-ms) :此UDF要求网络可到达预期的URL目标。 给定一个URL和一个连接超时(以毫秒为单位)...
JPMML-猪 Apache Pig 平台 ( ) 的 PMML 评估器库。 特征 完全支持 PMML 规范版本 3.0 到 4.2。... 模型启动器类必须扩展抽象 Pig 用户定义函数 (UDF) 类org.apache.pig.EvalFunc并为以下方法提供具体实现: #exec(T
搜集了FLUENT-UDF使用过程中常见的一些问题,对初学者有一定帮助
pdi-猪-udfs 使用 Pentaho 数据集成的 Pig UDF 的集合
Apache Pig+MapReduce给Lucene/Solr/ElasticSearch构建索引 ####项目简介 主要是利用了Pig框架简化了自己写Hadoop MapReduce程序来构建大规模并行索引的问题,里面封装了主流的全文检索框架,如Lucene,Solr和...
网址工具一组用于URL的Apache Drill UDF 它使用 Java库进行解析。UDFs 包括以下UDF: url_parse(url-string) :输入URL / URI字符串后,将在地图中返回一组字段( url , scheme , username , password , host ,...
Hive UDF UDF 聚合 UDF Finds MIN, MAX and SUM from array of Struct Objects based on a field. 排序 UDF Returns sorted array of Struct objects for an array of Struct Objects based on a field. 日期 ...
splitquery UDF 返回值对应于查询字符串中的目标键,如hoge=foo 。 安装 将此行添加到应用程序的 Gemfile 中: gem 'norikra-udf-uri_parser' 然后执行: $ bundle 或者自己安装: $ gem install norikra-...
小猪转换器用于过滤和转换日志数据的 DSL,实现为 Pig UDF。 (在 CDH 5.1.2、java 1.7.0_55 上测试)建造 git clone https://github.com/rhase/piggy-converter.gitcd piggy-converter./gradlew./gradlew jar设置...
特征查找 UDF 和 Pig 变量的用法和重构支持数据类型自动完成关键字突出显示代码注释/取消注释大括号匹配语法和错误突出显示自定义颜色设置页面安装从 IntelliJ 插件仓库安装。作者布兰登·卡比拉塞尔·梅利克如何...
如何编写自定义 Pig UDF 单元测试 UDF。 加载到猪脚本中。 如何编写一个猪脚本 使用外部编写的 Loader ( ) 尝试通过以下方式保持猪脚本尽可能干净 使用属性文件。 只加载它真正需要的 JAR 文件。 将您的 Pig ...
pressure.c:压力随时间变化的udf; tempreture.c:温度随时间变化的udf; heatflux.c:热流密度随时间变化的udf flu_udf1:udf教程 Fluent UDF 中文教程:udf中文教程