一、基本概念
1、数据仓库:是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
其中最核心的是集成。
2、ETL:抽取 转换 加载 把数据从不同的oltp系统中集成到数据仓库中的过程
3、数据模型:仓库里的数据怎么组织?(数据结构)目前业界的事实标准是 维度模型
4、大数据:大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
简单说:能够支持全量数据分析的一系列技术
二、阿里的大数据体系架构
1、采集和同步
2、数据仓库(onedata)
3、数据服务(简单 实时 推送) 解决怎么提供成果的问题
4、应用
三、数据服务的架构变化的过程:
1、一个功能一个接口
2、多个功能合并到一个接口(openapi)
3、统一使用sql来执行(内部有执行引擎)
4、支持个性化、实时、定时等别的需求
四、大数据环境下的数据仓库
1、数据仓库仍然是使用数据的前提
2、对比传统ETL,大数据环境下的技术 包括 map reduce, spark,storm,hbase,hive等,个人理解:数据仓库是目标,
大数据是技术实现方式
五、传统BI与大数据下的数据仓库对比
1、BI数据一般是线上数据,结构化,主要作离线统计分析
2、大数据仓库:有复杂的计算和调度,同时支持离线和实时操作,在ETL和分析时使用的都是分布式的技术
六、大数据仓库环境下的职位建议
1、ETL工程师(写hive sql、mapreduce 任务、流计算任务 等), 主要是执行层面
2、数据建模(建立数据仓库),主要是设计层面
3、数据分析、数据挖掘、机器学习(在仓库上面写算法、做模型)
4、大数据平台技术工程师、架构师(搭建和运维整套的大数据平台)
相关推荐
大数据之路阿里巴巴笔记
大数据时代读书笔记2021年.pdf
《大数据与机器学习-实践方法与行业案例》读书笔记&思维导图,看书时做的笔记,分章节写的,比较全,方便查找。
大数据读书笔记 【篇一:大数据 读后感】 从徐子沛的《大数据》中得到的感悟 数据,对于我们现代社社会来说,已经是再熟悉不过了。大量化(volume)、多样化(variety)、快速化(velocity)和大价值(value)。这四...
阿里云大数据专业认证学习笔记 大数据计算服务考试内容讲解及笔记
大数据的学习笔记,从大数据的基本概念包括Hadoop、hive、离线计算、实时计算、数据库、数据仓库、维度建模、大规模并行处理MPP,到阿里大数据产品,包括MaxCompute、DataWorks、数据集成、机器学习PAI、AnalyticDB ...
云计算大数据学习笔记,让你深入学习云计算大数据学习技术。
自己在大数据培训班学习整理的笔记,比较详细,适合新手学习,我感觉还是挺有帮助的,希望可以帮助到你
大数据技术 数据仓库设计与开发 数据仓库学习笔记 共54页.pdf
主要记录了我阅读架构大数据-大数据技术及算法分析时觉得是重点的知识,涉及以下内容:大数据、云计算、Hadoop、Spark、推荐算法等 ps:请用XMind软件打开
清华大学 学堂在线,高级大数据系统课件笔记:讲解内容:大数据系统导论、linux 数据处理基础、分布式文件系统、map reduce、内存化的数据处理、流数据处理、NoSQL、图处理、机器学习系统等。
大数据导论学习记录笔记
作业内容,只包含题目。有数据,信息,知识,智能的比较
《数据保护、利用与安全:大数据产业的制度需求和供给》读书笔记模板.pptx
2021年-Hive大数据仓库-期末考试知识点重点-笔记整理.pdf
大数据、数据分析领域工具笔记,整理比较全,很值得学习
该知识来源于MOOC林子雨老师的《大数据技术原理》,该笔记编写了大数据的发展、为什么需要大数据、大数据有什么用、大数据采用哪些组件等技术原理与知识,对于相关从业者、大学生,是一个梳理自身对大数据的理解的...
大数据课件大数据课件大数据课件大数据课件大数据课件大数据课件大数据课件
大数据时期读书笔记.pdf
完整图文版 阿里巴巴数据产品平台 大数据与云计算技术系列教程 Hadoop之Hive学习笔记(共63页).rar