数据溯源是什么?
它在我们生活中已经随处可见,从平时的外卖美食到菜鸟快递,以及疫情防控使用的健康码...
准确来说数据溯源是:记录和重现原始数据在整个数据生产的生命周期内,从产生、传播或消亡的演变和处理过程。
那如何获取这些溯源信息?
常用的方法是设计时确立了RFID、二维码之类的可追溯的标识在需要追溯的各个业务阶段都可以通过标识查找到对应的数据。这种通常被称为标注法... 还有个常用的方法方向查询法,通过构建逆向函数,由结果推导出原始数据,这个方法的难度是某些计算无法提供逆向函数。 理论上其他的方法的详解可以自行网上搜索查询
而针对基于SQL作为数据处理逻辑的场景我找到了另一个解决方法:(目前已经可以支持Spark,Oracle理论上可以支持任何基于SQL的计算引擎)
1. 解析数据血缘关系和修改SQL的计算逻辑和执行计划
2. 执行修改后的执行计划在获取计算结果的同时,也记录了计算所需的原始数据
这里提供了一个演示用的工具(www.bilibili.com/video/BV17r… 视频介绍)
默认提供了3张数据表方便做简单的功能测试, 执行的SQL被提交给工具后,溯源工具分析并重构;工具默认提供了7个测试样本,包括: join(还可支持on表达式中出现函数等非常规的条件),union/union all,distinct,group by,多层的子查询,窗口函数,自定义的UDTF/UDAF等。
相关推荐
2021-66页大数据治理抽取转换清洗血缘分析数据回滚解决方案.pptx
66页大数据治理抽取转换清洗血缘分析数据回滚解决方案.pptx.zip
基于gsp的sql解析工具,能够获取表血缘关系及表字段关系,以及sql类型
通过解析sql语句获取表血缘关系
基于图数据库的元数据血缘关系分析技术研究与实践.docx
梳理Informatic的元数据,理清ETL背后的数据加工流水线基础数据,基于SQL析可以获取目标表依赖的源表和映射,然后基于映射可以追溯到相应的会话、工作集、工作流,完成整个数据加工链的血缘
字节跳动数据血缘技术实现与具体用例.pdf
// 设置元数据服务 Delegate.getDelegate().setMetaColumnService(new IMetaColumnService() { @Override public List<String> queryMetaColumn(String dbName, String tableName) { return Collections.empty...
“血缘关系”是“博爱”或“悲伤”的性别中立术语。 最初,血缘关系包括M个男性成员和F个女性成员。 每周随机选择一个成员,选择一个新成员,该成员的性别始终与进行选择的成员相同。 这种进化模型与经典的Pólya...
基于Python实现字段级血缘分析项目源码.zip基于Python实现字段级血缘分析项目源码.zip基于Python实现字段级血缘分析项目源码.zip基于Python实现字段级血缘分析项目源码.zip基于Python实现字段级血缘分析项目源码.zip...
基于 Antlr4 的 Hive SQL 解析.zip 大学生课程设计 课程设计 自己大二写的课程设计
大数据全栈学习【生态组件,技术栈,数据流,数据仓库,数据库,指标体系,血缘关系,元数据管理,数据质量,DataWor.zip
元数据可以用来记录数据血缘关系,跟 踪和记录数据血緣有利于数据源的追溯和查找数据存在的问题。 数据质量管理是数据管理中的一项关键的支撑流程,包括数据质量分析、识别数据异 常和定义业务需求相关规则。 大数据...
血缘关系解析工具源码_对hql集合进行静态分析_获取hql对应的血缘图
在数据仓库建设中,经常会使用到数据血缘追中方面的功能,本项目实现了对hql集合进行静态分析,获取hql对应的血缘图(表血缘 + 字段血缘) 项目升级内容 删除hive-exec与hadoop-common的maven依赖,使得项目更加的轻...
数据资产与治理:浅谈数据血缘的作用与价值.docx
字节跳动数据血缘架构演进之路.pdf
此血缘图实现了以下功能: 1、支持节点跨级连线 2、支持正反向连线(任意连线)3、节点层级清晰 4、支持放大、缩小功能 5、支持拖拽节点功能 6、连线为箭头连线 7、连线上可以加文字标注 8、节点内容清晰明了 9、...
SQL语法词法分析 SQL表级血缘 SQL字段级别血缘 SQL函数血缘 SQL编译器