阅读更多

0顶
2踩

数据库

原创新闻 数据湖的最佳实践

2016-06-13 10:23 by 副主编 mengyidan1988 评论(0) 有7703人浏览
数据湖(Data Lake)概念最早是2011年由CITO Research网站的CTO和作家Dan Woods所提出,并且时至今日依然伴随着不少的争议。“数据湖”的百度百科词条创建于15年的10月份,在国内网络上的资料也仅仅是从2014年底才开始大规模集中出现,在国内,它还是一个相对年轻的概念。



根据定义,“数据湖是指一个大型的基于对象的存储库,以数据的原始格式保存数据,直到它需要被使用时。” 数据湖基本上是一个数据存储平台,使企业能够收集各种数据集,用数据的原始格式进行存储,并让不同的数据使用者可以访问这些数据集,使他们能够根据各自的业务目的使用这些数据。数据湖的好处之一,就是为共享数据提供了单一存储库,从而降低数据复制,避免数据不一致和增加成本。

如何构建、维护和挖掘Hadoop数据湖的价值

Hadoop以及其它大数据应用框架,例如Spark,是围绕以下的理论来设计和建立的:分布式并行计算技术和存储穿过网络行程的最小化是在海量数据情况下,能获得最佳数据查询和处理性能的关键因素。这一理论约束了大数据基础设施的结构和部署。自从Hadoop诞生以来,它就认为要发挥该框架性能,就必须采用将存储和计算进行托管(co-location)的架构。Hadoop是一门了不起的技术。过去各式各样的数据分析成本极高,昂贵的专用软件和硬件组合作为工程数据仓库系统(Engineering Data Warehouse Systern),才有可能完成这一复杂的工作。而现如今各种类型、各类规模的机构只要通过在商用硬件集群部署免费开源软件,就能做到这一点。

Hadoop早期案例鼓吹在低成本和敏捷性上大获成功。但是随着越来越多的主流用例出现,各大机构发现在企业级数据仓库时代,管理和控制仍然不可或缺。数据湖俨然已经成为企业级数据仓库与数据转储之间的中间地带,其提供系统依然敏捷灵活,而其所拥有的保障和审计功能也对于业务关键型数据是必不可少的。

综合的数据湖解决方案,譬如Bedrock和Mica加强了必要的可控性,而Hadoop依旧快速敏捷,较以往方案有很大的提升。即使在敏感行业,如卫生保健、金融服务及零售行业,这些用例也如雨后春笋般不断增加。

企业也在展望未来。他们看到,真正有价值的数据湖不能仅仅是一个储舱,它必须是企业的多个平台之一,拥有着精心构造的现代化的端到端数据架构。就像从企业级的的角度来看待元数据一样,必须能够集成数据湖与外部工具(企业级数据视图的一部分)。只有这样才能建立一个开放的、可扩展的数据湖,并且很容易就能将其集成到其他关键业务平台上。

如果你的企业准备建一个数据湖,那么下面是这份清单,可以帮助你了解都需要做哪些事情,以此确保可以通过灵活的方式把控整个项目的运作。



业务优先级列表

一个数据湖项目的开展,必须与业务强强相关。毕竟,数据湖需要为业务带来企业级数据仓库无法提供的价值。它的价值可能是解决痛点,或者是为业务团队带来全新的收入来源。能够从业务的角度去定义和表达价值,并说服伙伴加入,这对取得成功非常重要。

建筑监督

一旦确定了数据湖与业务的一致性,而且也知道重点在哪儿,就需要定义前期架构:需要哪些不同的组件,最终的技术平台将会是什么样子?请记住,这是一项长期投资,所以需要仔细把握技术的导向。当然,以上问题,你心中可能并没有找到所有答案。

所以可能有必要验证一下概念,从而得到一些经验,在此过程中不断调整和学习。建筑计划中特别重要一点就是拥有很好的数据管理策略,包括数据治理和元数据,以及如何做好这几点。如果想建立一个可管理和控制的数据湖,而非饱受诟病的“数据沼泽”,这一点是至关重要的。

安全策略

概述一个强有力的安全战略,特别是当数据湖将是一个共享平台,由多个业务线或者内部和外部利益相关者共同使用。数据隐私和安全至关重要,尤其是受保护的个人健康信息(PHI)和个人身份信息(PII)等敏感数据。同时,还必须考虑多租户的使用情况:某些用户可能无法与其他用户共享数据。如果你提供多个外部观众服务,每个客户可能和你签订了单独的数据协议,你需要尊重他们。

I/O和内存模型

作为技术平台和体系结构的一部分,必须考虑数据湖的扩展功能。例如,是否打算在存储和计算层之间使用解耦?很多企业已经在坚持使用Azure或S3存储数据,但都是当数据存储完毕后才停止集群的动态切换。如果你计划来执行这样的操作,你需要从数据摄入的角度彻底理解吞吐量需求,这将决定为存储和网络吞吐量以及数据是否可以得到及时处理。

员工技能评估

任何数据湖项目要想获得成功,必须有正确的人。专家应该具备构建数据平台实践经验,有丰富的数据管理和数据治理经验,这样他们就可以预先明确策略和项目流程。还需要邀请日后会使用这一数据湖的数据科学家们,并将其作为利益相关者参与到早期的建筑过程中去,听取他们的需求,了解他们更愿意怎样与数据湖交互。

行动计划

考虑数据湖从服务水平协议(SLA)的角度来看:哪些需求是需要去满足你的业务利益相关者的,特别是他们对影响收益的业务关键型应用程序这一部分有什么要求?需要从几乎零停机时间、可重复读取、处理、改变数据的角度,制定适当的服务水平协议。话题还是回到了人和技能点上,关键是需要有合适的人,他有着管理这些环境的经验,能够整合一个行动小组来支持服务水平协议,满足业务需求。

沟通计划

一旦数据湖平台搭建完成,就如何考虑如何做广告宣传、拓展用户?需要找到不同的感兴趣的业务涉众,为其展示数据湖的成功示例,毕竟任何平台最终的成功都表现在其商务上的成功。

灾备计划

由于数据湖业务的关键性,同时与不同的用户组有不同的服务等级协议,为了保证其关键性能,需要一个能支持这一切的灾备计划。

五年愿景

鉴于数据湖将会成为下一代企业级数据技术的关键基础平台,企业需要提前计划如何将数据湖纳入长期策略。我们看到,各大组织机构为了在分析自身数据时更加高效,产生更多及时的见解,正在用数据湖接管企业级数据仓库组织。组织机构必须意识到数据湖最终将成为数据存储的集合体,包括HDFS、 NOSQL、Graph DBs。他们最终也将支持实时数据处理和生成流媒体分析,也就是说,不仅以流的方式汇总数据,还能作为机器学习模型,当数据输入时在线分析数据,以监督或无监督的方式生成自己的见解。部署选项也会增加。对于不想将数据上传至公有云的公司,他们可以利用公共云模式在他自己的环境中构建私有云。在这些所有的参数中,企业需要有一个非常健壮的功能集,从而摄取和管理数据,存储和组织数据,准备和分析数据,保证数据安全,并控制它。无论你选择什么底层平台,流、批处理、对象存储、flash、内存亦或是文件,在数据湖未来几年的发展中,都需要一直提供这一强大的功能集,这一点至关重要。
引用

作者:Alice LaPlante, Ben Sharma
翻译:张洁 程权
原文链接:https://www.oreilly.com/ideas/best-practices-for-data-lakes
本文由英方股份供稿
  • 大小: 361.1 KB
  • 大小: 128.4 KB
0
2
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 面向大型组织的数据湖最佳实践.pdf

    面向大型组织的数据湖最佳实践.pdf

  • 数据湖的最佳实践_数据湖

    数据湖的最佳实践As Data drives business we need Data lake to collect data and get advantage from it. In this story, we will cover all the insights about the data lake and know it in a better way. 随着...

  • Flink CDC + Hudi + Hive + Presto 构建实时数据湖最佳实践

    每个文件组包含多个切片,其中每个切片包含在某个提交 / 压缩即时...说明:目前还没写入测试数据,Hudi 目录只生成一些状态标记文件,还未生成分区目录以及 .log 和 .parquet 数据文件,具体含义可见 Hudi 官方文档。

  • 数禾云上数据湖最佳实践

    4. 阿里云第一代数据湖 4.1. 什么是数据湖 4.2. 阿里云数据湖设计 4.2.1. 阿里云数据湖整体架构 4.2.2. 统一存储和元数据管理 4.2.3. 多EMR多OSS桶设计 4.2.4. 分布式调度系统设计 4.2.5. 用户权限系统设计 4.2.6. ...

  • 【精品】数据湖技术及实践与案例精选资料大合集.zip

    精品,数据湖技术及实践与案例精选资料大合集,共40份。 一、数据湖解决方案和相关资料 毕马威数据湖数据管控平台 打造数据增量计算新架构 - 网易数据湖调研&实践 ...数据湖解决方案-AI行业应用最佳实践

  • COS 数据湖最佳实践:基于 Serverless 架构的入湖方案

    01前言数据湖(Data Lake)概念自2011年被推出后,其概念定位、架构设计和相关技术都得到了飞速发展和众多实践,数据湖也从单一数据存储池概念演进为包括 ETL 分析、数据转换及数据...

  • 华为云MRS基于Hudi和HetuEngine构建实时数据湖最佳实践

    如果数据湖的数据,从数据源产生后,可以在1分钟以内实时进入到数据湖存储,支持各种交互式分析,这种数据湖通常叫做实时数据湖,如果可以做到15分钟之内,也可称为准实时数据湖。构建实时数据湖,正在成为5G和IOT...

  • Flink CDC + Hudi + Hive + Presto构建实时数据湖最佳实践

    7.20 Flinksql 查询cdc update数据 产生两条binlog数据 说明:flinksql 查询最终只有一条+I有效数据,且数据已更新 Flink web UI DAG接受到两条binlog数据,但最终compact和sink只有一条有效数据 7.21 MySQL 数据源...

  • 《大数据湖最佳实践》读书笔记

    本书描述了数据湖基础知识,如基本架构、与数仓的对比、数据存储、元数据处理、数据访问控制等,读完能够让你对数据湖技术有一个概述性的认知。 笔记按章节整理如下: 一 数据湖概述 数据湖的演化成熟度:数据...

  • 数据湖解决方案-最佳实践案例集.pdf

    数据湖资料

  • 数据湖是一种方法 数据湖的四个最佳实践

    数据湖听起来很简单:把数据或信息汇集到一个结合处理速度和存储空间的大数据系统――Hadoop集群或内存解决方案,那样业务部门就能访问数据,获取新的洞察力。不过,与IT行业的许多技术一样,现实比梦想困难得多。 ...

  • 数据湖解决方案-互娱行业应用最佳实践.pdf

    数据湖资料

  • 数据湖解决方案-AI行业应用最佳实践.pdf

    数据湖资料

  • 数据湖解决方案-教育行业应用最佳实践.pdf

    数据湖资料

  • 数据湖解决方案-游戏行业应用最佳实践.pdf

    数据湖资料

  • 【图像压缩】 GUI矩阵的奇异值分解SVD灰色图像压缩【含Matlab源码 4359期】.zip

    Matlab领域上传的视频均有对应的完整代码,皆可运行,亲测可用,适合小白; 1、代码压缩包内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主或扫描视频QQ名片; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

  • node-v0.9.2-x86.msi

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

  • 【尺寸检测】机器视觉图像目标尺寸测量【含Matlab源码 4087期】.zip

    Matlab领域上传的视频均有对应的完整代码,皆可运行,亲测可用,适合小白; 1、代码压缩包内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主或扫描视频QQ名片; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

  • 【图像加密】双随机相位图像加密解密【含Matlab源码 4118期】.zip

    Matlab领域上传的视频均有对应的完整代码,皆可运行,亲测可用,适合小白; 1、代码压缩包内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主或扫描视频QQ名片; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

Global site tag (gtag.js) - Google Analytics