基于血缘关系的数据溯源工具(sqllineage.com)

博客分类：

数据溯源是什么？它在我们生活中已经随处可见，从平时的外卖美食到菜鸟快递，以及疫情防控使用的健康码... 准确来说数据溯源是：记录和重现原始数据在整个数据生产的生命周期内，从产生、传播或消亡的演变和处理过程。那如何获取这些溯源信息？常用的方法是设计时确立了RFID、二维码之类的可追溯的标识在需要追溯的各个业务阶段都可以通过标识查找到对应的数据。这种通常被称为标注法... 还有个常用的方法方向查询法，通过构建逆向函数，由结果推导出原始数据，这个方法的难度是某些计算无法提供逆向函数。理论上其他的方法的详解可以自行网上搜索查询而针对基于SQL作为数据处理逻辑的场景我 ...

2022-05-13 15:33
浏览 1959
评论(0)
分类:行业应用

SQLLineage.com（SQL优化：列裁剪）

博客分类：

spark
数据血缘关系

sql 数据挖掘

列裁剪是SQL优化中最常见的优化规则，就是对于没有用到的列就没必要读取已减少IO的消耗。为什么出现列裁减？一、SQL本身就有逻辑问题，包含了与结果无关的数据列：如：sql1：select a,b from ( select a,b,c from tab1 ) t中SubSelect子查询中的字段c就是可列裁剪的对象。二、为了复用已有的数据模型设计，但实际的需求只需部分数据字段一个简单分层数仓每个数据层都设计了特定的数据模型，冗余了多个数据字段便于多业务系统复用，数据需要按照数据模型逐层的生产。而现实的情况是冗余字段造成了不必要的计算资源消耗，特别是实时性要求较 ...

2021-09-25 18:03
浏览 1011
评论(0)
分类:数据库

SQLLineage.com（分析SQL的数据血缘关系）

博客分类：

spark
数据血缘关系
Atlas
java

spark 数据血缘关系 Atlas sql hive

数据的生产就像淘金，生产的步骤繁琐还需消耗大量的计算资源。而数据的多样性和差异性使得数据生产不得不不断的迭代处理逻辑，分层数仓的设计简化了单层数据模型的设计，但增加了额外的计算资源消耗，当出现数据质量问题时更是质控者的噩梦。梳理清楚数据的来源、经过那些处理步骤、数据间存在那些引用和依赖的关系，这些信息归纳起来就是数据的血缘关系。而SQL强大的描述能力被广泛的应用在各种数据工具，分析SQL的AST是获取数据血缘关系的一个重要来源。个人开发了一个分析SQL获取数据血缘关系的小工具：sqllineage.com/demo 数据血缘关系在数据管理，数据追溯，性能优化，增量数据生产方面都能提供 ...

2021-08-20 14:52
浏览 1259
评论(0)
分类:行业应用

AKKA笔记3

博客分类：

spark
java

What is Akka? Scalable real-time transaction processing We believe that writing correct concurrent, fault-tolerant and scalable applications is too hard. Most of the time it's because we are using the wrong tools and the wrong level of abstraction. Akka is here to change that. Using the Actor Mod ...

2015-11-10 14:57
浏览 793
评论(0)
分类:编程语言

AKKA笔记2

博客分类：

java
spark

1.Actor是个 scala写的接口除了获取sender self recieve 其他的打眼一看面向切面的n多方法其中： preStart 用于发送前初始化参数 postStop用于结束后回收资源 2. Actor sender ， self ， path 每个actor都有系统内唯一的一个path master.tell("start", master); path ： akka://test/user/master Actor之间发送消息：定义另一个 ...

2015-11-08 18:12
浏览 671
评论(0)
分类:编程语言

AKKA笔记1

博客分类：

spark
java

读spark源码，AKKA确实有必要单独研究一下，用在java的项目上也不错1.maven构建一个akka的java项目，只需要添加一个dependencies <dependency> <groupId>com.typesafe.akka</groupId> <artifactId>akka-actor_2.10</artifactId> <version>2.3.14</version> </dependency> ...

2015-11-08 14:39
浏览 673
评论(0)
分类:编程语言

模仿google做的会议室预约系统

博客分类：

ui

Google DWR .net HTML

之前模仿google日历的界面，做了一个会议室预预约的项目，操作方式也模仿google日历的操作，用色块来表示预约的会议，采用了dwr和后台交互。基本上是纯js做的，正好申请了一个免费空间，请大家多批评指正，目前遇到有两块页面刷新的问题，偶尔会无法刷新或者会显示混乱，一直没找到问题所在。希望大家帮忙看看。这是项目的演示地址 http://dinglin.s155.eatj.com/meet/meeting.html?1,2,3,4,5, 一下是部分项目的截图。

2009-03-20 16:57
浏览 5797
评论(11)
论坛回复 / 浏览 (6 / 11296)
分类:Web前端

如何收集schema中所有的xpath信息??

XSL XML

目前负责的项目中碰到一个收集schema中所有的XPATH的问题该项目主要实现一个编辑器的功能,包含模版编辑:通过给定的SCHEMA,采用XSL去生成一个可视的表单,表单中存储部分接点的XPATH信息; 第二是表单编辑器:展现表单信息,编辑数据时能够实现知识库辅助录入等功能,将编辑后的数据通过表单中的XPATH信息,生成一个纯数据的XML用于业务逻辑. 目前两个编辑器的功能基本实现了,目前碰到的问题主要是从 schema中提取xpath的问题,看那位朋友有比较好的解决方法或着工具.

2007-10-26 17:42
浏览 1321
评论(0)
论坛回复 / 浏览 (0 / 1608)

用P3P解决第三方cookie存取的问题

博客分类：

java

应用服务器浏览器企业应用 SSO Web

初来乍到，看到一篇cookie夸域的帖子，觉的他只是解决了跨二级域名的问题，自己曾经作过一个企业应用的sso，其中用到的p3p解决了cookie跨域的存取。第一次发帖，请各位高手多多指教首先介绍第一方Cookie和第三方cookie: 第一方Cookie是来自当前正在查看的网站，或者发送到当前正在查看的网站。第三方Cookie是来自当前正在查看的网站以外的网站，或者发送到当前正在查看的网站以外的网站。第三方网站通常提供正在查看的网站上的内容。例如，许多站点使用来自第三方网站的广告，或者iframe的别的网站的url，这些第三方的网站可能使用的Cookie。然后是P3P,Platf ...

2007-06-26 16:11
浏览 7990
评论(6)
论坛回复 / 浏览 (4 / 15552)
分类:企业架构

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

基于血缘关系的数据溯源工具(sqllineage.com)

SQLLineage.com（SQL优化：列裁剪）

SQLLineage.com（分析SQL的数据血缘关系）

AKKA笔记3

AKKA笔记2

AKKA笔记1

模仿google做的会议室预约系统

如何收集schema中所有的xpath信息??

用P3P解决第三方cookie存取的问题

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>