`

Hdoop相关知识

阅读更多
引用

一:涉及到的东西
HDFS:file system用于管理文件,相当于资源管理系统
Map reduce :Engine+Logic 实现大量的计算
Nuts:框架
非结构化数据:如日志数据(flume,scribe)
结构化数据:有表结构等,如oracle和mysql。数据可以从HDFS中互相转换到关系型数据库中,采用的软件有Sqoop
OLTP:在线事务处理应用(HBASE),要求延时比较少。1024G=1p
Eclipse:管理。Ganglia监控集群,带宽等
JAQL高层次接口,采用sql语言
Hive:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
Oozie:workflow
Mahout:more high interfaces,它封装了算法

二:Hadoop:适合大数据的分布式的存储和计算平台
1.HDFS:
主从结构:主节点:只有一个:namenode
          从节点:有很多个:datanodes
namenode负责:
接收用户操作请求
维护文件系统的目录结构
管理文件与block之间的关系,block与datanode之间的关系

datanode负责:
存储文件
文件被分成block(默认大小为64M)存储在磁盘上
为保证数据安全,文件会有多个副本

2.MapReduce:
主从结构:
主节点:只有一个,JobTracker
从节点:有很多个:TaskTrackers
JobTracker负责:
接受客户提交的计算任务
把计算任务分给TaskTrackers执行
监控TaskTrackers的执行情况
TaskTrackers负责:
执行JobTracker分配的计算任务
3.Hadoop的特点:
扩容能力:能可靠的存储和处理千兆字节(PB)数据
成本低:可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达到千个节点。
高效率:通过分发数据,hadoop可以在数据所在的节点上并行的处理它们,这使得处理非常的快速。
可靠性:hadoop能自动的维护数据的多份副本,并且在任务失败后能自动的重新部署(redeploy)计算任务。

分享到:
评论

相关推荐

    hadoop相关知识习题

    习题类型:(有关spark,hive,zookeeper,HBase等) 1.HBase来源于哪篇博文?BigTable 2.对HBase的描述哪些是正确的是:是面向列的,是分布式的,是一种...适合于想学习hadoop相关知识的人群,内容简单易懂且比较完整。

    Hadoop相关知识.docx

    有关Hadoop的基础应用等知识,其中也提及了CacheArchive和Partition的原理,以及分布式平台HDFS的工作原理

    hadoop知识结构图

    hadoop知识结构图.hadoop知识结构图.hadoop知识结构图.hadoop知识结构图.

    hadoop基础知识扫盲

    大数据hadoop基础知识扫盲,初步了解什么是hadoop

    hadoop相关知识

    大数据入门必备,主要是hadoop的一些常规配置介绍,功能实现等!

    hadoop口述知识点,新手必备

    *****1.如何实现wordcount ***2.hadoop1.0和hadoop2.0的区别 ***3.搭建hadoop伪分布式/完全分布式集群的步骤

    hadoop基础知识

    hadoop架构的基础知识介绍,此文档为PPT,通过此文档可以对hadoop的基本理论知识有所熟悉。

    Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf

    Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf Hadoop_Spark相关面试问题总结 - Hadoop知识库.pdf

    hadoop基本知识总结

    hadoop基本知识总结

    Hadoop实用知识库分享知识分享

    资源Hadoop实用知识库分享知识分享

    Hadoop基础知识面试题大汇总.docx

    Hadoop基础知识面试题大汇总.docx Hadoop基础知识面试题大汇总.docx Hadoop基础知识面试题大汇总.docx Hadoop基础知识面试题大汇总.docx Hadoop基础知识面试题大汇总.docx Hadoop基础知识面试题大汇总.docx

    Hadoop集群程序设计与开发

    《Hadoop集群程序设计与开发(数据科学与大数据技术专业系列规划教材)》系统地介绍了基于Hadoop的大数据处理和系统开发相关技术,包括初识Hadoop、Hadoop基础知识、Hadoop开发环境配置与搭建、Hadoop分布式文件系统、...

    hadoop基础知识学习与总结

    hadoop基础知识学习与总结

    基于Hadoop的知识管理系统设计与实现.docx

    基于Hadoop的知识管理系统设计与实现.docx基于Hadoop的知识管理系统设计与实现.docx基于Hadoop的知识管理系统设计与实现.docx基于Hadoop的知识管理系统设计与实现.docx基于Hadoop的知识管理系统设计与实现.docx基于...

    基于Hadoop的知识管理系统设计与实现.pdf

    基于Hadoop的知识管理系统设计与实现.pdf基于Hadoop的知识管理系统设计与实现.pdf基于Hadoop的知识管理系统设计与实现.pdf基于Hadoop的知识管理系统设计与实现.pdf基于Hadoop的知识管理系统设计与实现.pdf基于Hadoop...

    hadoop大数据知识点及题型.docx

    Hadoop作为大数据业务的基础原因: (1)Hadoop底层的分布式文件系统具有高拓展性,通过数据冗余保证数据不丢失和提升计算效率,同时可以存储各种形式的数据,他还有多种计算框架,既可以进行离线计算也可以进行在线...

    Hadoop知识点笔记

    Hadoop知识点笔记

    Hadoop重点知识总结

    这是本人根据《Hadoop权威指南》和《Hadoop实战》这两本书进行总结,对Hadoop中的MapReduce机制和HDFS数据流程进行总结,并对Hadoop的发展历程进行总结,是对Hadoop的高度总结。

Global site tag (gtag.js) - Google Analytics