`
ynduanlian
  • 浏览: 35389 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

大数据基本知识

 
阅读更多

1、大数据的特点可以概括为4V: Volume Value Variety Velocity,即数据规模大、数据价值高、数据类型多、数据处理速度快。

 

2、核心特征是Value,数据价值高。但是价值密度低。

 

3、大数据处理主要关注的五项技术:高性能数据仓库、MPP数据库、HADOOP、NoSQL、Stream

 

MPP数据库:MPP即大规模并行处理系统,系统由许多松耦合处理单元组成的。其中,每个单元内的CPU都有自己私有的资源,如总线、内存、硬盘等。在每个单元内都有操作系统和管理数据库的实例副本。这种结构最大的特点在于不共享资源。

并行数据库体系结构包括三种基本体系:共享内存结构(Shared-Memory)、共享磁盘结构(Shared-Disk)、无共享资源结构(Shared-Nothing)。

 

Shared-Memory结构也就是SMP结构,包括多个处理器、一个全局共享的内存(主存储器)和多个磁盘存储,各个处理器通过高速通信网络(Interconnection Network)与共享内存连接接,并均可直接访问系统中的一个、多个或合部的碰盘存储,在系统中,所有的内存和磁盘存储均由多个处理器共享。

 

共享磁盘(Shared-Disk)结构: 系统中的每一个处理器可以访问全部的磁盘存储,磁盘存储中的数据被复制到各个处理器各自的高速缓冲区中进行处理,这时会出现多个处理器同时对同一磁盘存储位置进行访问和修改,最终导致数据的一致性无法保障,因此,在结构中需要增加一个分布式缓存管理器来对各个处理器的并发访问进行全局控制与管理,这会带来额外的通信开销。Oracle的RAC就是样的结构。

 

无共享资源(Shared-Nothing)结构: 

该结构由多个完全独立的处理节点构成,每个处理节点具有自己独立的处理器、独立的内存(主存储器)和独立的磁盘存储,多个处理节点在处理器级由高速通信网络连接,系统中的各个处理器使用自己的内存独立地处理自己的数据。目前,在并行数据库领域,Shared-Memory结构很少被使用了,Shared-Disk结构和Shared-Nothing结构则由于其各自的优势而得以应用和发展。Shared-Disk结构的典型代表是Oracle集群,Shared-Nothing结构的典型代表是Teradata,IBM DB2和MySQL的集群也使用了这种结构。

 

Stream:实时数据处理过滤,规则匹配

 

总结一下:

大数据时代没有“必杀技”可以高效低成本的满足整个架构,和种技术相辅相成,优势互补。

高性能数据仓库:高并发、高性能处理结构化数据、支撑高SLA需求

MPP数据库:结构化、关联性分析、即席分析

Hadoop:非结构化或批量简单汇总、非实时处理、数据挖掘

NoSQL:结构化或非结构化存储与实时查询

流处理(Stream):实时数据处理过滤,规则匹配

分享到:
评论

相关推荐

    大数据基础(思维导图)

    大数据基础知识的思维导图

    大数据基本介绍ppt

    大数据基础介绍。

    大数据技术知识点概要

    对林子雨老师的大数据原理与应用课程的总结,基本是个人的理解,包括了对各个术语的解释。帮助读者入门大数据。

    大数据与知识服务(PDF格式).rar

    首先,它阐述了大数据技术的基本框架,包括数据采集、存储、处理和分析等关键环节,并介绍了当前主流的大数据处理工具和平台。接着,资料聚焦于知识服务的构建,讨论了如何从数据中提取知识,以及如何将这些知识应用...

    大数据导论基础知识整理

    本教材针对信息管理、经济管理和其他相关专业学生的发展需求,系统、全面地介绍了关于大数据技术与应用的基本知识和技能,详细介绍了大数据与大数据时代、大数据的可视化、大数据的商业规则、大数据时代的思维变革、...

    大数据的一些基本知识,常见的大数据存储技术

    大数据的一些基本知识,常见的大数据存储技术

    大数据课件--bupt

    北京邮电大学大数据课程的课件!包括大数据基本知识,各类大数据处理方法和算法详细讲解,包括深度学习。

    大数据平台大数据平台

    大数据时代,数据量非常大,基本上是没什么用的,基本上是在突发情况下使用。 大数据应用非常广泛,例如谷歌通过美国人上网查询流感信息(治疗等方面)来统计分析流感趋势。这类应用可以帮助我们更好地了解和预测...

    大数据习题(2024)-大数据概述部分主要考查了大数据的基本概念、特征、发展阶段、思维转变、计算模式等基础知识

    大数据概述部分主要考查了大数据的基本概念、特征、发展阶段、思维转变、计算模式等基础知识。 Hadoop部分重点考查了Hadoop的核心组成、特性、生态系统组件以及HDFS相关的理论和操作。 HBase部分着重考查了HBase作为...

    大数据是什么和大数据技术十大核心原理详解

    对大数据的基本知识进行介绍,适合初学者入门,了解基本知识

    厦门大学大数据技术原理与应用

    本课程系统介绍了大数据相关知识,共有13章 •系统地论述了大数据的基本概念、大数据处理架构Hadoop、分布式文件系统HDFS、分布式数据库HBase、NoSQL数据库、云数据库、分布式并行编程模型MapReduce、流计算、图计算...

    大数据学习所需基本知识以及搭建Hadoop大数据环境过程.docx

    1.简单介绍了大数据及其框架 2.Linux系统安装及环境准备 3.Linux系统克隆及常用命令 4.Linux系统的软件安装方式介绍 5.VM虚拟机下安装Centos 6.部署hadoop(独立模式) 7.伪分布模式 8.全分布模式 9.一键启动脚本...

    大数据-大数据挑战与NoSQL数据库技术

    《大数据挑战与NoSQL数据库技术》... 《大数据挑战与NoSQL数据库技术》对大数据时代面临的挑战,以及NoSQL数据库的基本知识做了清晰的阐述,有助于读者整理思路,了解需求,并更有针对性、有选择地深入学习相关知识。

    大数据系统综述.pdf

    能详尽的文献调研, 首先介绍了大数据的基本定义和大数据面临的一些挑战; 然后提出了大数据系 统框架, 将大数据系统分解为数据生成、数据获取、数据存储和数据分析等 4 个模块, 这 4 个模块也 构成了大数据价值链; ...

    教学大纲厦门大学-林子雨-大数据技术原理与应用

    专业选修课,大数据技术入门课程,为学生搭建起通向“大数据知识空间”的桥梁和纽带,以“构建知识体系、阐明基本原理、引导初级实践、了解相关应用”为原则,为学生在大数据领域“深耕细作”奠定基础、指明方向。...

    大数据工程师 作为一名大数据工程师,需要掌握多个方面的技能和知识

    熟悉数据库和数据仓库的基本知识,包括数据建模、数据设计、数据管理和数据安全等方面。了解数据库和数据仓库可以帮助大数据工程师存储和管理海量的数据,并从中提取有价值的信息。 3、分布式系统和计算机网络: ...

    大数据导论课件,第一章什么是大数据

    构建知识体系、阐明基本原理;引导初级实践、了解相关应用;为学生在大数据领域“深耕细作”奠定基础、指明方向 课程内容介绍: 第一章 什么是大数据 第二章 大数据技术基础 第三章 数据采集与预处理 第四章 大数据...

    大数据系统综述_李学龙.pdf

    本文对大数据分析平台进行了尽可能详尽的文献调研,首先介绍了大数据的基本定义和大数据面临的一些挑战;然后提出了大数据系统框架,将大数据系统分解为数据生成、数据获取、数据存储和数据分析等4个模块,这4个模块也...

    大数据时代-数据仓库基本知识点汇总.pdf

    大数据时代-数据仓库基本知识点汇总.pdf

Global site tag (gtag.js) - Google Analytics