`
jiezhu2007
  • 浏览: 241965 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
博客专栏
Cfa1f850-3fc3-3a36-9cd8-c3415c9610c6
hadoop技术学习
浏览量:142167
Group-logo
大数据产业分析
浏览量:2942
社区版块
存档分类
最新评论

基于元数据驱动的ETL

 
阅读更多
2016-07-03 朱洁 

 

元数据的定义元数据(Metadata),为描述数据的数据(data about data),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。

 

ETL的定义

ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

 

ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。

 

数据不符合分析的要求,所以要准备数据,这个过程就叫ETL。

 

基于元数据驱动的价值

可以统一数据资产,获取企业数据全局视图。一个好的元数据管理工具,对企业全系统的数据在哪里,都有哪些数据,有一个全局观。缺失元数据管理工具,就只能靠人员经验,谁也说不清楚数据来源,以及作用。

 

简化etl过程,通过元数据可以构建自动工具,自动基于元数据通过简单的UI操作就可以实现etl过程。简化etl代码编写过程并且etl过程也可以大量的复用。

 

基于元数据驱动的难点

元数据管理难。数据变化快,传统手工配置的方法很难保证一致性而且是一个工作量巨大的工作。元数据就是企业多数据字典,维护一个完整的元数据,就类似编字典。

 

 

涉及到语义管理,不同的表,不同名称的字段,可能是同一含义。相同名称的字段也可能含义不一样,还涉及版本变化。

 

 

所以这个工作是个技术+管理的工作。业界有很多公司在思考怎么降低元数据管理难度,所以有利用机器学习自动识别元数据的共识,例如tamr,华傲数据等等。

 

 

另外,元数据不仅是etl的基础,也是数据质量/数据治理的基础。

 


 

 

 

 

 
 

微信扫一扫
关注该公众号

0
2
分享到:
评论

相关推荐

    元数据驱动的大数据服务平台.docx

    元数据驱动的大数据服务平台 作者:佘俊,周宇鹏,王林,董天波,兰天 来源:《科技传播》 2018年第5期 随着物联网、大数据等IT 技术的快速发展,包括电力企业在内的行业均产生大量的数据,其数据储存也占据着大量的...

    基于元数据驱动的异构数据模型映射算法 (2011年)

    通过对ETL体系结构进行分析,提出了一种基于元数据驱动的通用数据转换体系结构。这些技术已在中国石油大型数据中心数据转换项目中得到应用,实现了开发数据库数据向统一的勘探开发数据模型EPDM的数据转换,应用效果...

    通信与网络中的一种本体驱动ETL过程的设计和实现

    信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。目前,大多数企业花费大量的资金和时间来构建联机事务处理OLTP的业务系统和办公自动化系统,用来... 基于传统的XML元数据编码方法的ETL过程已经不能

    informatica

    PowerCenter数据整合引擎是基于元数据驱动的,提供了基于数据驱动的元数据知识库(Repository),该元数据知识库可以在主流的关系型数据库中部署。

    Apache Hop client 1.0 1.1 1.2 2.0 官网下载速度无语了~~

    Apache Hop(Hop 是 Hop Orchestration Platform 的缩写)是一个灵活、元数据驱动的数据编排、工程和集成平台。该项目起源于二十多年前的 ETL 平台 Kettle,经过几年的重构,于 2020 年 9 月进入 ASF 孵化器。 ...

    reactors-etl:用于开发用于SD2E的ETL组件的源代码和测试材料-Source material

    该存储库包含用于开发各种ETL组件的源代码和测试材料,以为DARPA SD2程序提供数据和元数据的提取,转换和加载。 ETL组件是在TACC的Cloud API平台中开发和操作的,该平台具有Agave和Reactors应用程序运行时的功能。 ...

    pentaho学习笔记

    如果想创建复杂数据驱动的报表,这是合适工具。 2. Design Studio 这是基于eclipse的工具,你可以使用它来创建手工编辑的报表或分析视图xaction 文件,一般用来对在report designer中无法增加修改的报表进行修改。 3...

    大数据架构师的岗位职责.docx

    2、精通数据驱动的理论,设计并生产上线相关数据驱动的产品; 3、精通常用消息中间件的使用,例如kafka/RocketMQ/Apache Pulsar,有解读相关源码者优先; 4、掌握hadoop、spark生态体系相关产品的使用,掌握MapReduce...

    大数据产品及服务能力.pptx

    产品定位及产品特色 复杂异构数据源 实时性传输 兼容大数据技术栈 多人协作开发 核心特色 产品定位 SDC 融合数据ETL 以元数据智能驱动,通过流程设计器快速构建数据处理模型,完成数据库、半结构化、非结构化数据...

    数据仓库基础

    第一章对数据仓库的迫切需求...................................................................................................23 本章目标:.................................................................

Global site tag (gtag.js) - Google Analytics