`

什么是ETL

    博客分类:
  • BI
阅读更多

ETL是商业智能(BI)的重要组成部分。我们先看一下在WIKI中的定义:

ETL,是英文Extract-Transform-Load的缩写,即填充、更新数据仓库的数据抽取、转换、装载的过程。这是实现商业智能之前的数据采集步骤。这一步骤完成之后,对库中数据的数据挖掘、分析处理才可以进行。

对于ETL而言,“是什么”是很容易理解的,也就是将分散的、不易利用的数据进行整理,变成规则清晰的、易于利用的、(可能同时还是)集中的数据。在ETL过程之外,就可以基于报表分析系统、多维分析系统和数据挖掘系统等,进行进一步的数据分析利用。

这一过程可以通过Hard Codding,即编写程序实现,也可以通过各种ETL工具实现。

对于ETL,实际常见的问题有两个:

1、为什么要做ETL,而不是直接利用数据?

这个原因有多种多样,比如可能原始数据量太大,需要加以提炼;可能业务数据的服务器面临性能压力,不希望分析工作影响性能;可能源数据的异构性和低质量,需要加以规范;还有可能有些数据直接利用起来有困难,例如SAP系统中的数据。

2、不同ETL工具与方法的差异主要是什么?

由于ETL是一个可以用Hard Codding并不大困难就可以实现的过程,因此很容易会问“为什么要用ETL工具”。实际上,Hard Codding也是一种可供选择ETL方法,而各种工具与方法主要的差异在于两点,一是设计与建立ETL过程的复杂度,比如有些工作用工具可以很快建立和修改、调试,而写程序要花很大力气,有些工作则配置ETL工具很费力,还不如直接写一个SQL,不同的工具之间也有很大的差异;二是运行时的效率,有些ETL工作,要经常进行,有些则是初始时进行一次,有些数据量大、时效要求高,有些则反之。这样,在不同情况下,就可能需要根据运行效率的需要选择合适的ETL工具。

从上面两个问题,我们可以理解ETL的必要性与适用性,同时,也可以认识到,ETL是一个概念,应该根据实际的情况与需要,选择(包括不使用)合适的ETL工具或方法。

分享到:
评论

相关推荐

    大数据什么是ETL.pdf

    ⼤数据什么是 ⼤数据什么是ETL ETL 概念 概念 ETL 这个术语来源于数据仓库,ETL 指的是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程。ETL 的⽬的是将企业中的 分散、零乱、标准不统⼀的数据整合到⼀...

    很全的ETL学习资料

    什么是ETL.docx 商业智能 通过SSIS设计ETL来将Oracle,DB2,Sybase等数据源的数据定期导入到数据仓库.docx 商务智能(BI)的四大关键技术-ETL(抽取(Extract)、转换(Transform)和加载(Load)).docx 选择合适的ETL工具满足...

    ETL学习资料

    1.什么是ETL 2.BI项目中ETL设计与思考 3.DataStage(ETL)技术总结 4.ETL常见性能瓶颈 5.ETL高级教程 6.ETL工具点评 7.ETL构建企业级数据仓库五步法 8.ETL增量抽取 9.ETL增量抽取方式 10.三大主流ETL工具选型 11.商务...

    ETL之kettle基础-PPT讲解

    内容概要:ETL之kettle包含26张PPT,kettle安装、使用、如何连接等,使用PDI9.2演示、什么是ETL、什么是Kettle、kettle安装、kettle目录结构、转换和作业、kettle操作、数据库连接、注意事项。 适合人群:具备一定...

    ETL 以及 KETTLE 简介

    1. 什么是ETL 2. KETTLE简介 2.1. Chef——工作(job)设计器 2.1.1. Chef中的作业项包括: 2.1.2. 工作流 2.1.3. 存储方式 2.1.4. LogView: 2.2. Kitchen——作业执行器 2.3. Spoon——转换过程设计器 ...

    ETL实战ETL实战

    ETL实战ETL实战ETL实战ETL实战

    ETL架构师面试题

    1.什么是逻辑数据映射?它对ETL项目组的作用是什么? 2.在数据仓库项目中,数据探索阶段的主要目的是什么? 3.如何确定起始来源数据? 架构 4.在ETL过程中四个基本的过程分别是什么? 5.在数据准备区中允许使用...

    1、ETL工程师经典面试题.md

    1. 什么是数据准备区?在数据准备区中允许使用的数据结构有哪些?各有什么优缺点? 2. 简述异构数据源中的数据抽取技术。 3. 数据质量检查的四大类是什么?为每类提供一种实现技术。 4. 简述数据仓库中的表的基本...

    支持国产ETL etl-engine 用go写的轻量级etl引擎 方便集成到各企业中

    etl-engine的核心思想是为用户快速搭建ETL产品提供解决方案,让用户低代码乃至零代码将ETL产品集成到自己的项目或产品生态中。该产品由etl-engine引擎和etl-designer云端设计器及etl-crontab调度组成。etl-engine...

    ETL详解.docx

    1 ETL是什么 3 2 ETL和大数据有什么关联 3 3 ETL有哪些过程,要进行哪些操作 3 3.1 抽取作业 4 3.1.1 手工开发抽取作业时候的常用方法 4 3.1.2 更新数据的时间和数量的问题 5 3.2 转换作业 8 3.2.1 数据清洗 8 3.2.2...

    Java分布式ETL框架

    Java分布式ETL框架

    ETL:交换任务调度

    ETL:交换任务调度

    ETL工具 ,基于Kettle实现的Web版ETL工具

    ETL工具 ,基于Kettle实现的Web版ETL工具,实现简单的数据抓取功能

    BI ETL ELT Kettle 基础知识中文文档汇总

    BI ETL ELT Kettle 基础知识中文文档汇总 BI项目中ETL设计与思考.pdf CTL工具.pdf ETL-开发规范.pdf ETL_--_事实表.pdf ETL_文档.pdf ETL_架构.pdf ETL_调度系统技术方案说明书_V1.0.pdf ETL中的数据清洗...

    ETL系列专题2 ETL数据结构

    ETL架构设计系列,介绍ETL Staging Area架构原则和常用数据结构

    传统数据仓库ETL设计报告

    ETL升级一方面采用元数据驱动ETL的方式,通过配置元数据驱动ETL;另一方面,在ETL调度控制方面,采用结合数据质量校验的ETL调度

    ETL简介,介绍了ETL的基础知识

    介绍ETL

    ETL Automation 工具简介.pptx

    ETL Automation 是由 Teradata 公司发布的 ETL 流程调度产品,使用 JAVA 程序开发,支持跨平台部署,安装、维护简单。

    ETL PLUS v5白皮书

    ETL PLUS v5白皮书 ETL PLUS V5 White Paper

    kettle etl

    kettle使用,用来各个数据库之间ETL数据抽取,功能比较全面。

Global site tag (gtag.js) - Google Analytics