什么是Hadoop?
The Apache™ Hadoop® project develops open-source software for reliable, scalable, distributed computing.
特点:
- 扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。
- 成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。
- 高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。
- 可靠性(Reliable):hadoop能自动地维护数据的多份副本,并且在任务失败后能自动地重新部署(redeploy)计算任务。
主要解决:
- 海量数据的存储(HDFS)
- 海量数据的分析(MapReduce)
- 资源管理调度(YARN)
Hadoop生态系统
Hadoop生态圈
Hadoop1.0和Hadoop2.0的对比
YARN(Yet Another Resource Negotiator,另一种资源协调者)产生背景:
直接源于MRv1在几方面的无能:
1.扩展受限
2.单点故障
3.难以支持MR之外的计算
多框架各自为战,数据共享困难
1.MR离线计算框架
2.Storm实时计算框架
3.Spark内存计算框架
相关推荐
Hadoop生态圈,讲解,带你深入了解Hadoop平台。
hadoop生态圈组件搭建全过程,介绍如何安装一套大数据计算框架的过程。
最新Hadoop生态圈开发学习资料 Linux、Hadoop、HDFS、Zookeeper、Hive、Flume、Kafka、等等
Hadoop生态圈介绍及入门
在Ubuntu系统下安装Hadoop圈中的部分软件。 VMWare Ubuntu SSH JDK Hadoop MySQL Hive Hbase Mahout Sqoop Spark Flume Kafka ElasticSearch Redis Phoenix
Hadoop生态圈总体介绍 Hadoop生态圈总体介绍 Hadoop生态圈总体介绍
第1讲_Hadoop生态圈简介
详细描述了spark,hadoop生态圈的各个组建,能充分了解各个组建的原理以及使用
Centos 7安装配置Hadoop生态圈CDH5版本 其中包括hadoop hbase hive spark 等组件安装
Hadoop生态圈常用软件打包rpm spec描述文件,包括 Hadoop,spark, alluxio,spark,ranger等
hadoop生态圈hive数据仓库的部署详细流程
基于Spring Boot与Hadoop生态圈构建的大数据平台+源代码+文档说明 -------- 不懂运行,下载完可以私聊问,可远程教学 该资源内项目源码是个人的毕设,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96...
Hadoop专业解决方案-第一章大数据和Hadoop生态圈.docx
Hadoop专业解决方案-第1章大数据和Hadoop生态圈.docx
毕业设计项目,使用scrapy框架和hadoop生态圈框架实现的招聘信息大数据处理.zip
hadoop 2.7.5 集群搭建 spark 2.2.1 集群搭建,配置scala编译环境 hive on spark 安装 hbase 搭建
毕业设计&课设--毕业设计项目,使用scrapy框架和hadoop生态圈框架实现的招聘信息大数据处理