`

Hadoop入门

阅读更多


1.hadoop集群共同组成了一个"云"(服务器)

2.hadoop强调代码向数据迁移(数据庞大,迁移困难,所以把代码迁移到目标机器上,直接运行,提高效率)
  所以存储和处理要放到一起

3.Hadoop一种分布式的编程框架

4.sql是针对结构化数据很方便,而hadoop方便操作非结构化数据
  原则上,Hadoop和sql可以互补,Hadoop可以作为sql的执行引擎
 
  sql与Hadoop比较:
  1.扩展性:一般是买更大的单机服务器(贵),而hadoop是扩展服务器数量(便宜)
  2.Hadoop用键值对代替关系表
  3.用函数式编程(MapReduce)代替sql
  MapReduce使用脚本和代码来查询数据,这是更一般的查询方式,而sql是结构化查询
 
  sql是声明式语言,你告诉机器想要什么数据,数据库引擎来做出选择查询的方式
  Hadoop是获取数据的方式由你自己来指定
  4.Hadoop用离线批量处理代替在线处理
  hadoop专门为离线处理开发,适合一次写入,多次读取
 
5.写一个mapper和reduce很麻烦,但是一次写好,就容易拓展到千千万万的服务器上

6.简单的练习:统计一组文档中的单词

7.数据太大,内存放不下,那么就需要实现一个磁盘散列表(内存中放索引,磁盘中放对应的数据)

8.mapper将输入进行过滤和转换,reduce对结果进行聚合(分而破之)

9.在mapreduce中编写程序就是定制化mapper和reduce的过程
   1.应用的输入必须组织成键值对的列表
  
10.Hadoop结构:主从结构


   namenode:位于主端,指导从端的DataNode执行底层的I/O任务,跟踪文件如何被分为文件块,被哪些节点存储,以及运行是否正常
            大量消耗内存,I/O资源(可能会存在单点失效的问题)
   DataNode:位于从节点,负责分布式文件的读取和写入
            当要读取或者写入数据的时候,用户向namenode来获取文件块的存储地址,然后用户直接和对应的datanode通信,最后datanode与别的datanode通信,复制数据块实现冗余,见我的图1
   
   secondary Namenode(snn):检测HDFS状态的辅助守护进程,每个集群一个snn,与namenode通信,获取元数据的快照(namenode是单一故障点,ssn有助于错误恢复)
  
   JobTracker:计算的进程也分为主从结构,jobtracker每个集群一个,位于主端,负责分配任务,检测任务的整个运行状态
   taskTracker:负责jobtracker分配的单项任务,每个机器一个,taskTracker可以产生多个jVM来并行处理许多map和reduce的任务
               间隔一定时间与Jobtracker通信,否则jobtracker认为节点崩溃,重新分配任务
     
11.
SSH(Secure Shell)
是一种通用的、功能强大的、基于软件的网络安全解决方案。计算机每次向网络发送数据时,SSH都会自动对其进行加密。


12.为了使主节点来控制从节点,需要一种控制手段,为此,Hadoop使用了ssh协议
   所有节点上的账号要用相同的账号名
  
13.HDFS可以将很大的数据存储为1个文件(实际上是分布存储的),而别的系统无能为力

 

wordcount运行过程:http://blog.csdn.net/xw13106209/article/details/6116323

分享到:
评论

相关推荐

    Hadoop入门实战手册

    Hadoop入门实战手册,Hadoop入门实战手册是搭建HADOOP的详细介绍手册。

    Hadoop入门手册.chm

    Hadoop入门手册 简单入门Hadoop入门手册 简单入门Hadoop入门手册 简单入门Hadoop入门手册 简单入门

    hadoop 入门

    hadoop入门,新手入门(InfoQ Hadoop基本流程与应用开发,InfoQ Hadoop中的集群配置和使用技巧,InfoQ 分布式计算开源框架Hadoop介绍)

    Hadoop入门到精通

    Hadoop入门到精通(带目录)--很不错的HADOOP学习资料

    hadoop入门书籍1

    hadoop的入门书籍,本人认为一共有以下五本书比较好: 1.云计算资料大全(了解云计算者必读).pdf 2.Hadoop开发者入门专刊 3.Hadoop权威指南%28第2版%29中文版 4.hadoop实战中文版+电子版pdf 5.精通HADOOP 由于上传...

    hadoop入门

    hadoop入门是初学者,这只是一个入门的教程,让你了解hadoop到底是什么。

    Hadoop入门实战手册 中文版)

    Hadoop入门实战手册,本手册是中文版,且较详细

    hadoop入门学习 天气数据 2002年整年数据

    hadoop入门学习 mapreduce求解 天气数据 2002年整年数据的最高气温

    Hadoop入门教程

    Hadoop入门教程 Hadoop开发者 2010入门专刊 出品Hadoop技术论坛

    hadoop_tutorial hadoop入门经典

    hadoop_tutorial hadoop入门经典 Hadoop 是一个能够对大量数据进行分布式处理的软件框架。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。...

    hadoop入门经典书籍

    hadoop的经验入门书籍,适合刚刚开始了解学习hadoop技术的人

    Hadoop入门手册

    Hadoop入门手册 chm格式的 很适合初学者.Hadoop入门手册.zip

    非常好的hadoop入门资料

    非常好的hadoop入门资料;非常好的hadoop入门资料;非常好的hadoop入门资料;非常好的hadoop入门资料;非常好的hadoop入门资料;非常好的hadoop入门资料;非常好的hadoop入门资料;非常好的hadoop入门资料;非常好的...

    Hadoop入门程序java源码

    Hadoop集群搭建好后,这是用于测试用的入门级java程序源码,也是我博文的一个补充,欢迎查看下载

    Hadoop入门中文手册

    Hadoop入门中文手册 目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等,同样也介绍了Hive,HBase详细安装应用! ...

    史上最全面的hadoop入门视频教程

    1、对大数据Hadoop感兴趣的在校生及应届毕业生。 2、对目前职业有进一步提升要求,希望从事大数据行业高薪工作的在职人员。 3、对大数据行业感兴趣的相关人员。 课程介绍: 第一章 大数据基础和Zookeeper入门 第二...

Global site tag (gtag.js) - Google Analytics