工作中需要根据不同的值来设置不同的输出目录,有两个点需要注意:
1 其中参数2的 namedOutput 必须设置 MultipleOutputs.addNamedOutput(job, a, TextOutputFormat.class, NullWritable.class, Text.class); 2 mos.write(keyStr, NullWritable.get(), valText, keyStr + "/"); // 对应于 run方法中的 addNamedOutput里的参数2, 这里必须保持一致 否则报Named ouput 'xxx' not defined的错,
具体代码如下,针对 mos.write中的baseOutputPath的不同设置的值的hdfs输出目录见代码注释:
import com.alibaba.fastjson.JSON; import com.mydb.bigdata.config.Config; import com.mydb.bigdata.xetl.model.Constant; import com.mydb.bigdata.xetl.utils.AutoActLogParseUtil; import org.apache.commons.lang.StringUtils; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.conf.Configured; import org.apache.hadoop.fs.FileStatus; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.FileUtil; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs; import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; import org.apache.hadoop.util.Tool; import org.apache.hadoop.util.ToolRunner; import org.json.JSONException; import org.json.JSONObject; import org.slf4j.Logger; import org.slf4j.LoggerFactory; import java.io.IOException; import java.sql.SQLException; import java.util.HashMap; import java.util.Iterator; import java.util.List; import java.util.Map; import java.util.regex.Matcher; import java.util.regex.Pattern; /** * Created by pc on 2017/9/21. ./log/data_log_parse_to_hdfs/data_log_parse_to_hdfs.sh:66:hadoop jar ${com_jar_bigdata_common_mongo_batch_get} com.mydb.bigdata.xetl.mr.AutoActLogParseMr /collect_data/userlog/20170902/*userlog*.log.gz ----> 源头数据 args[0] /log_data/2018-04-03/ ----> 解析后的文件夹 args[1] 'stg_log_' ------> 解析后的埋点表名 args[2] /include/xetl.properties ------> hive源数据库的连接信息 args[3] * * create external table stg_log_1900039(...) PARTITIONED BY (day STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' LINES TERMINATED BY '\n' STORED AS TEXTFILE LOCATION '/log_data/stg_log_1900039'; * */ public class AutoActLogParseMr extends Configured implements Tool { private static Logger logger = LoggerFactory.getLogger(AutoActLogParseMr.class); // public static String day=""; public static String acts = ""; /** * * @param args * 1、传入参数 * 2、传出参数 * 3、业务参数:①stg_log_ ②stg_log_class_perform_ * 4、配置文件路径:如xetl.properties */ public static void main(String[] args) { if (args.length < 2) { System.out.println("args must more than 2."); System.exit(0); } // day=(args[0].split("/"))[3]; Configuration conf = new Configuration(); FileSystem hdfs = null; try { int res = ToolRunner.run(conf, new AutoActLogParseMr(), args); System.exit(res); } catch (Exception e) { logger.error("", e); } } public int run(String[] params) throws Exception { Configuration conf = getConf(); conf.set("mapreduce.output.fileoutputformat.compress.codec", "org.apache.hadoop.io.compress.GzipCodec"); Integer numReduceTasks = 3; FileSystem hdfs = null; try { // 程序配置 // conf.set("fs.default.name", "hdfs://Galaxy"); //config.set("hadoop.job.ugi", "feng,111111"); //config.set("hadoop.tmp.dir", "/tmp/hadoop-fengClient"); //config.set("dfs.replication", "1"); //config.set("mapred.job.tracker", "master:9001"); // hdfs = FileSystem.get(new URI("hdfs://Galaxy"), // conf, "bigdata"); Path path = new Path("/log_data/"); hdfs = path.getFileSystem(conf); // logger.info("path 的值:" + path); String flag=params[2]; // stg_log_ acts = getOutPutName(hdfs, path, conf,flag); // 1900039@1900038 conf.set("fs.allActs", acts); } catch (Exception e) { e.printStackTrace(); } // acts = Hdfstools.readHDFSFile("/log_data/actId"); // logger.info("acts的值为" + acts); //获取配置文件信息 Config propertiesConfig = new Config(); propertiesConfig.init(params[3]); // xetl.properties String mysqlUrl = propertiesConfig.getValue("mysqlUrl"); String mysqlUser = propertiesConfig.getValue("mysqlUser"); String mysqlPassword = propertiesConfig.getValue("mysqlPassword"); String dbname = propertiesConfig.getValue("dbname"); conf.set("mysqlUser",mysqlUser); conf.set("mysqlUrl",mysqlUrl); conf.set("mysqlPassword",mysqlPassword); conf.set("dbname",dbname); Job job = Job.getInstance(conf); job.setJarByClass(AutoActLogParseMr.class); job.setMapperClass(AutoActLogParseMr.AutoActLogParseMaper.class); job.setReducerClass(AutoActLogParseMr.AutoActLogParseReducer.class); //将第一个路径参数作为输入参数 FileInputFormat.setInputPaths(job, new Path(params[0])); // /collect_data/userlog/20170902/*userlog*.log.gz //将第二个参数作为输出参数 FileOutputFormat.setOutputPath(job, new Path(params[1])); // /log_data/2018-04-03/ job.setMapOutputKeyClass(Text.class); job.setMapOutputValueClass(Text.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(Text.class); job.setNumReduceTasks(numReduceTasks); String dirName[] = acts.split(Constant.MARK_AITE); // 1900039@1900038 这些要解析的埋点变成数组 for (String a : dirName) { // hdfs多路径输出文件 , 其中参数2的 namedOutput 必须设置 MultipleOutputs.addNamedOutput(job, a, TextOutputFormat.class, NullWritable.class, Text.class); } logger.info("---excuter---"); return job.waitForCompletion(true) ? 0 : 1; } public static class AutoActLogParseMaper extends Mapper<LongWritable, Text, Text, Text> { public static Map<String, List> actMap = new HashMap(); @Override protected void setup(Context context) throws IOException, InterruptedException { try { String mysqlUser = context.getConfiguration().get("mysqlUser"); String mysqlUrl = context.getConfiguration().get("mysqlUrl"); String mysqlPassword = context.getConfiguration().get("mysqlPassword"); String dbname = context.getConfiguration().get("dbname"); String string = context.getConfiguration().get("fs.allActs"); // 1900039@1900038 要解析的actid actMap = AutoActLogParseUtil.getHiveStaticConf(string,mysqlUrl,mysqlUser,mysqlPassword,dbname); // actids,mysql链接信息 得到 <actid, actid所在的表的所有列> } catch (SQLException e) { e.printStackTrace(); } super.setup(context); } @Override protected void cleanup(Context context) throws IOException, InterruptedException { } protected void map(LongWritable key, Text val, Context context) { try { String jsonStr = val.toString(); if (StringUtils.isEmpty(jsonStr)) { return; } /** * 要解析的一行内容: * 2017-09-02 00:00:17.017 172.16.0.8 openApi -- {"actId":"1712012","classId":"f17ee6fd1fcb4f1fb3e1688f5cd364bd","className":"九年级(1)班","countyId":"445381","countyName":"罗定市","gradeId":"9","originCode":"4","role":"STUDENT","schoolId" :"18738","schoolName":"罗定第二中学","time":1504281617255,"userIcon":"d355db9797f854e1805e653b95555001","userId":"37628410","userIp":"113.101.248.138","userName":"陈嘉怡","data":{"subjectName":"数学","subjectId":"020","rankChallengeTime ":"201709","rankScope":"2"}} */ if (jsonStr.indexOf(Constant.SPLIT_MAKER) == -1) { // -- logger.info("--split error--" + jsonStr); return; } //AutoActLogParseUtil autoActLogParseUtil = new AutoActLogParseUtil(); jsonStr = jsonStr.split(Constant.SPLIT_MAKER,2)[1]; // 得到要解析的字符串 jsonStr = jsonStr.replaceAll("\\\\\\\\n", " "); jsonStr = jsonStr.replaceAll("\\\\n", " "); jsonStr = jsonStr.replaceAll("\n", " "); jsonStr = jsonStr.replaceAll("\\\\\\\\r", " "); jsonStr = jsonStr.replaceAll("\\\\r", " "); jsonStr = jsonStr.replaceAll("\r", " "); /** { "actId":"1712012", "classId":"f17ee6fd1fcb4f1fb3e1688f5cd364bd", "className":"九年级(1)班", "countyId":"445381", "countyName":"罗定市", "gradeId":"9", "originCode":"4", "role":"STUDENT", "schoolId":"18738", "schoolName":"罗定第二中学", "time":1504281617255, "userIcon":"d355db9797f854e1805e653b95555001", "userId":"37628410", "userIp":"113.101.248.138", "userName":"陈嘉怡", "data":{ "subjectName":"数学", "subjectId":"020", "rankScope":"2", "rankChallengeTime":"201709" } } */ // logger.info("解析数据为:" + jsonStr); JSONObject jsonObject = null; try { jsonObject = new JSONObject(jsonStr); } catch (Exception e) { logger.info("失败,无效的json格式;解析数据为:" + jsonStr); return; } String actId =""; if(jsonObject.has("actId")) { actId = jsonObject.get("actId").toString(); if (actId.length() < 1) { logger.info("失败,没有找到actID,解析数据为:" + jsonStr); return; } } else { logger.info("失败,打点数据没有actid key,解析数据为:" + jsonStr); } // logger.info("开始解析,解析数据为:" + jsonStr); Object jsonObj = JSON.parse(jsonStr); String sbff = AutoActLogParseUtil.jsonParse(jsonObj, actId, actMap); // 行数据 , 里面代码写的太乱 实在看不懂 .... 预先建表的列顺序和json的行的列的存储顺序一致 if (StringUtils.isBlank(sbff)) { logger.info("解析失败,解析数据为:" + jsonStr); return; } Text outKey = new Text(); Text outValue = new Text(); outKey.set(actId); outValue.set(sbff); context.write(outKey, outValue); } catch (IOException e) { logger.error("IO错误", e); } catch (JSONException e) { logger.error("JSON格式不对", e); // e.printStackTrace(); } catch (InterruptedException e) { logger.error("JSON格式不对", e); } } } public static class AutoActLogParseReducer extends Reducer<Text, Text, NullWritable, Text> { private MultipleOutputs<NullWritable, Text> mos; // 输出类型和Reduce一致 @Override protected void setup(Reducer<Text, Text, NullWritable, Text>.Context context) throws IOException, InterruptedException { mos = new MultipleOutputs<NullWritable, Text>(context); } @Override protected void cleanup( Reducer<Text, Text, NullWritable, Text>.Context context) throws IOException, InterruptedException { mos.close(); } @Override public void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException { Text valText = new Text(); Text keyValue = new Text(); Iterator<Text> it = values.iterator(); // 一行行的数据 String keyStr = key.toString(); while (it.hasNext()) { String[] uk = it.next().toString().split(Constant.MARK_LINE); // \002 行数据之间用 \002间隔 for (String tmpUk : uk) { valText.set(tmpUk); System.out.println("keyStr="+keyStr+"valText"+valText); // keyStr=2900011valText0eb688ff16674be3b1642346aa347a7629000114f527f0cd64e4bf8bfaceeda4d33049a二年级(4)班445381罗定市a07973c2a487424f801c35b68517e88b76131115xl_9604e109d44c416492d23f1cdeb856e1_v111["a6c15215335649e29ddf48224a9bbe7e"]010语文2openApi210.0.26.434STUDENT19026素龙街中心小学15353860243005c8f4e4149fcce05f6c29cb5094b45ef39180478113.101.249.141杨大立 /** * // String namedOutput, K key, V value, String baseOutputPath, 如果baseOutputPath不包含文件分隔符“/”,那么输出的文件格式为baseOutputPath-r-nnnnn(name-r-nnnnn); * 如果写成 mos.write(keyStr, NullWritable.get(), valText, keyStr + "hello"); 输出结果为 /log_data/2017-10-27/1100001hello-r-00001这种的, * 而实际需要的是 /log_data/2017-10-27/1100001/-r-00001 * * 如果是 mos.write(keyStr, NullWritable.get(), valText, keyStr + "/hello"); , 则输出结果为 /log_data/2017-10-27/1100001/hello-r-00001 * * 如果是 mos.write(keyStr, NullWritable.get(), valText, keyStr + "/"); 则输出结果为 /log_data/2017-10-27/1100001/-r-00001 */ mos.write(keyStr, NullWritable.get(), valText, keyStr + "/"); // 对应于 run方法中的 addNamedOutput里的参数2, 这里必须保持一致 否则报Named ouput 'xxx' not defined的错 } } } } /** * 来了新埋点,会产生新的建表语句,eg: create external table stg_log_1900039 (uuid String, actId String, ... )COMMENT 'log' PARTITIONED BY (day STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' LINES TERMINATED BY '\n' STORED AS TEXTFILE LOCATION '/log_data/stg_log_1900039'; 这里先去 /log_data/里找到所有符合 stg_log_1900039的表,解析得到所有埋点, 组品成 1900039@1900038这种方式返回 * @param hdfs * @param path * @param conf * @param tableType * @return */ public static String getOutPutName(FileSystem hdfs, Path path, Configuration conf,String tableType) { // fs, /log_data/ , conf , stg_log_ StringBuffer sb = new StringBuffer(); try { if (hdfs == null || path == null) { return sb.toString(); } //获取文件列表 FileStatus[] listStatus = hdfs.listStatus(path); Path[] listPath = FileUtil.stat2Paths(listStatus); for (Path p : listPath) { String fileNamePath = p.toString();//获得带路径的文件名字符串 String fileName = p.getName();//获取文件名 eg stg_log_1100001 String regex=tableType+"\\d{7}"; int fileNameLength=tableType.length()+7; // 15 int index=tableType.split("_").length; // 2 // if (flag==1) { // regex = "stg_log_\\d{7}";//stg_log_1400004 // fileNameLength=15; // index=2; // // } // else { // regex = "stg_log_class_perform_\\d{7}";//stg_log_1400004 // fileNameLength=29; // index=4; // } // logger.info("regex="+regex+"and"+"filenameLength="+fileNameLength); //logger.info("fileNamePath:"+fileNamePath+" fileName"+fileName); Pattern pattern = Pattern.compile(regex); if (fileName.length() == fileNameLength) { // logger.info("filename7=" + fileName); Matcher matcher = pattern.matcher(fileName); if (matcher.matches()) { //找到满足的文件,做下一步处理 if (!StringUtils.isBlank(sb.toString())) { sb.append(Constant.MARK_AITE); // @ } String str = matcher.group(); // sb.append((str.split(Constant.MARK_XHX))[index]);//2,4 // logger.info("str.value is:" + str + " sb.value is " + sb); } //logger.info(" sb.value is " + sb); // 将需要解析的埋点 1100001@1400004 拼接成这样 } } } catch (IOException e) { e.printStackTrace(); } return sb.toString(); } } }
相关推荐
主要介绍了 Hadoop MultipleOutputs输出到多个文件中的实现方法的相关资料,希望通过本文能帮助到大家,需要的朋友可以参考下
1.版本:matlab2014/2019a/2021a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。
1.版本:matlab2014/2019a/2021a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。
1.版本:matlab2014/2019a/2021a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。
在Java中,实现二叉树的中序遍历同样可以通过递归来完成。中序遍历的顺序是:首先递归地中序遍历左子树,然后访问根节点,最后递归地中序遍历右子树。 在这段代码中,Node类定义了二叉树的节点,BinaryTree类包含一个指向根节点的指针和inOrder方法,用于递归地进行中序遍历。printInOrder方法调用inOrder方法并打印出遍历的结果。 在Main类中,我们创建了一个示例二叉树,并调用printInOrder方法来输出中序遍历的结果。输出应该是:4 2 5 1 3,这表示中序遍历的顺序是左子树(4),然后是根节点(2),接着是右子树的左子树(5),然后是右子树的根节点(1),最后是右子树的右子树(3)。
无头单向非循环链表的实现(函数定义文件)
"PTA" 通常指的是一种在线编程平台,例如“Pata”或者某些特定学校或组织的编程练习与自动评测系统。在这种平台或系统中,学生或程序员会提交代码来解决各种问题,然后系统会自动运行并评测这些代码的正确性。 当提到“两个有序链表的合并PTA”时,这通常意味着在PTA平台上解决一个特定的问题,即合并两个有序链表。具体任务可能是给定两个已按升序排序的链表,要求编写代码来合并这两个链表,形成一个新的有序链表。
1.版本:matlab2014/2019a/2021a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。
搜索引擎的设计与实现
工作总结,新年计划,岗位总结,工作汇报,个人总结,述职报告,范文下载,新年总结,新建计划。
【基于Springboot+Vue的Java毕业设计】无人超市管理系统项目实战(源码+录像演示+说明).rar 【项目技术】 开发语言:Java 框架:Spingboot+vue 架构:B/S 数据库:mysql 【演示视频-编号:314】 https://pan.quark.cn/s/8dea014f4d36 【实现功能】 无人超市管理系统有管理员,用户两个角色。管理员功能有个人中心,用户管理,商品类型管理,支付类型管理,公告类型管理,商品信息管理,出入库管理,出入库详情管理,购买管理,购买详情管理,公告信息管理。用户可以注册登录,自助购买,点击购买管理里面收银就可以选择支付类型和商品然后提交,还可以查看购买详情和公告信息。
1.版本:matlab2014/2019a/2021a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。
年会班会资料,节目策划,游戏策划,策划案,策划方案,活动方案,筹办,公司年会,开场白,主持人,策划主题,主持词,小游戏。
在现有省、市港口信息化系统进行有效整合基础上,借鉴新 一代的感知-传输-应用技术体系,实现对码头、船舶、货物、重 大危险源、危险货物装卸过程、航管航运等管理要素的全面感知、 有效传输和按需定制服务,为行政管理人员和相关单位及人员提 供高效的管理辅助,并为公众提供便捷、实时的水运信息服务。 建立信息整合、交换和共享机制,建立健全信息化管理支撑 体系,以及相关标准规范和安全保障体系;按照“绿色循环低碳” 交通的要求,搭建高效、弹性、高可扩展性的基于虚拟技术的信 息基础设施,支撑信息平台低成本运行,实现电子政务建设和服务模式的转变。 实现以感知港口、感知船舶、感知货物为手段,以港航智能 分析、科学决策、高效服务为目的和核心理念,构建“智慧港口”的发展体系。 结合“智慧港口”相关业务工作特点及信息化现状的实际情况,本项目具体建设目标为: 一张图(即GIS 地理信息服务平台) 在建设岸线、港口、港区、码头、泊位等港口主要基础资源图层上,建设GIS 地理信息服务平台,在此基础上依次接入和叠加规划建设、经营、安全、航管等相关业务应用专题数据,并叠 加动态数据,如 AIS/GPS/移动平台数据,逐步建成航运管理处 "一张图"。系统支持扩展框架,方便未来更多应用资源的逐步整合。 现场执法监管系统 基于港口(航管)执法基地建设规划,依托统一的执法区域 管理和数字化监控平台,通过加强对辖区内的监控,结合移动平 台,形成完整的多维路径和信息追踪,真正做到问题能发现、事态能控制、突发问题能解决。 运行监测和辅助决策系统 对区域港口与航运业务日常所需填报及监测的数据经过科 学归纳及分析,采用统一平台,消除重复的填报数据,进行企业 输入和自动录入,并进行系统智能判断,避免填入错误的数据, 输入的数据经过智能组合,自动生成各业务部门所需的数据报 表,包括字段、格式,都可以根据需要进行定制,同时满足扩展 性需要,当有新的业务监测数据表需要产生时,系统将分析新的 需求,将所需字段融合进入日常监测和决策辅助平台的统一平台中,并生成新的所需业务数据监测及决策表。 综合指挥调度系统 建设以港航应急指挥中心为枢纽,以各级管理部门和经营港 口企业为节点,快速调度、信息共享的通信网络,满足应急处置中所需要的信息采集、指挥调度和过程监控等通信保障任务。 设计思路 根据项目的建设目标和“智慧港口”信息化平台的总体框架、 设计思路、建设内容及保障措施,围绕业务协同、信息共享,充 分考虑各航运(港政)管理处内部管理的需求,平台采用“全面 整合、重点补充、突出共享、逐步完善”策略,加强重点区域或 运输通道交通基础设施、运载装备、运行环境的监测监控,完善 运行协调、应急处置通信手段,促进跨区域、跨部门信息共享和业务协同。 以“统筹协调、综合监管”为目标,以提供综合、动态、实 时、准确、实用的安全畅通和应急数据共享为核心,围绕“保畅通、抓安全、促应急"等实际需求来建设智慧港口信息化平台。 系统充分整合和利用航运管理处现有相关信息资源,以地理 信息技术、网络视频技术、互联网技术、移动通信技术、云计算 技术为支撑,结合航运管理处专网与行业数据交换平台,构建航 运管理处与各部门之间智慧、畅通、安全、高效、绿色低碳的智 慧港口信息化平台。 系统充分考虑航运管理处安全法规及安全职责今后的变化 与发展趋势,应用目前主流的、成熟的应用技术,内联外引,优势互补,使系统建设具备良好的开放性、扩展性、可维护性。
【基于Java+Springboot的毕业设计】线上医院挂号系统(源码+演示视频+说明).rar 【项目技术】 开发语言:Java 框架:Spingboot+vue 架构:B/S 数据库:mysql 【演示视频-编号:300】 https://pan.quark.cn/s/8dea014f4d36 【实现功能】 本次开发的线上医院挂号系统实现了字典管理、论坛管理、会员管理、单页数据管理、医生管理、医生留言管理、医生挂号订单管理、管理员管理等功能。
工作总结,新年计划,岗位总结,工作汇报,个人总结,述职报告,范文下载,新年总结,新建计划。
Excel数据看板,Excel办公模板,Excel模板下载,Excel数据统计,数据展示
最全英语六级真题,从12年到23年总共66个真题。全网最全。
工作总结,新年计划,岗位总结,工作汇报,个人总结,述职报告,范文下载,新年总结,新建计划。
基于深度学习的人体姿态识别.zip