`
约巴拿
  • 浏览: 18976 次
  • 性别: Icon_minigender_1
社区版块
存档分类
最新评论

Hadoop的学习历程

阅读更多

Hadoop的学习历程

           说是历程,其实也就两个月。但两个月的时间也是有颇多感慨的。

           两个月前,我加入了“大数据处理”小组(十几个人组成的学习小团队)。大数据处理,一听就觉得高大上,想一探究竟,也就加入了这个学习小组。

           既然决定要干,那么肯定要行动起来(Action speak louder than words!)。因此,一加入这个团队,带头人豪翔就给我们交代了接下来要做的事,“当务之急,是要搭建好hadoop平台,因为hadoop就是用来做大数据处理的”。因此,在接下来的一个星期里,主要就耗在这上面了。

             光是搭建这个平台,就出现了不少问题。首先是安装双系统,在win7的基础上再装一个linux系统,因为hadoop的运行环境是在这种操作系统的基础上搭建的。我们统一选择装ubuntu12.04这个系统,然后我们开始在网上搜索相关资料,站在前人的肩膀上来更快地解决这一问题。但新手毕竟是新手,遇到问题总是难免的,光是装这个系统,我就重装了四五次,最后才解决。然后就是安装jdk,因为hadoop就是用java写的。最后才是安装hadoop。在这个过程中,问题层出不穷。有些小组成员用win8系统装出现的问题更多,导致系统崩溃而丢失原系统资料的,系统不能启动而到维修部做处理的.....真是好不无奈。好在我们是一个团队,我们之间的互相讨论、帮助最终使这些问题都被KO掉。之后,我们每个人还专门针对安装出现的问题各自出了一篇博客。建议想搭Hadoop平台的看这篇图文并茂的博客:http://weixiaolu.iteye.com/blog/1401931

这让我体会到了团队的力量,个人的力量是有限的,团队互相学习令我们每个人都进步得更快。这也就我们会每星期要开两次讨论会的原因了。

             hadoop平台搭建好后(这时的我们搭建的是伪分布式,其运行方式和集群分布式一样,只是namenode和datanode是处在同一台机器上),之后的就是要用该平台做大数据的处理。我们这时哪里有什么大数据,因此也就用hadoop自带的Wordcount例子来处理了一些短小的像“hello world”式的几K的小文件一个几M的txt小说文件。由于hadoop是用来处理大数据的,是不适合处理这样的小文件的。因此,我们也只是借此大概了解一下它的运作机制。其实,并没有切实地感受到hadoop真正处理那种几百G以上的大数据的爽快。

             这时的我们大概也就算是知道了有hadoop能处理数据这回事。但对于大数据,我们始终还没能真正地实践。再加上网络的不足,集群式分布式系统始终不能连成。这时,我们又快马加鞭地向hadoop的深层运行机制发起了进攻。研究hadoop的启动脚本,研究hadoop的源代码,研究hadoop的两大主要内容HDFS(Hadoop Distributed File System)和Map/Reduce。这时我们开始从事理论学习工作了,什么一致性哈希(涉及数据结构),什么多线程安全、分布式文件系统(涉及操作系统和网络),什么Map/Reduce编程(涉及java编程),每个涉及到的内容都可以说是一方土地(技术)养一方人(IT工作者),是一个个的大块头。这让我知道了什么叫作以点带面,从Hadoop出发而延伸出了那么多东西。我们向这些东西发起了狂轰乱炸,亦或是它们向我们发动了反击,搞得我们脑袋发胀。不管怎样,对这些理论知识的学习,让我感到学海无涯,知道的越多就会感到自己知道的越少,这大概就是长见识的感觉了。

          是啊,两个月了,已经涨了知识和见识 。接下来,该怎么办呢?IT之路漫长啊,每天更新的知识都学不过来。就拿Hadoop来说吧,早就升级为Yarn了。一个个领域的限制被逐个击破,这当然是好的现象,这表明生产力的进步是如此之快。如何能适应这个信息化时代?如何能站在所处领域的制高点?这的确值得深思。靠!像是扯远了,这似乎是一个企业要思考的。但自己思考一下也无妨。

           对上述问题也提出自己的几个看法:

1、站在巨人的肩膀上(牛顿如是说),前车之鉴,后事之师啊!

2、培养敏锐的眼光,像我现在就很看好云计算(当然看好的多着呢),它将是智慧地球和物联网这两个有远大前程的前沿方向的实现基础。正所谓,“平生不识云计算,徒干IT也枉然!”这就需要我们多看、多听、多交流。

分享到:
评论

相关推荐

    大数据史上最全的思维导图

    涵盖大数据hadoop、spark、scala、kafka和Linux-CentOS 6 基础和理论知识最全的思维导图,有助于学习大数据的小白自学

    hadoop简介与安装

    简要介绍了hadoop的发展历程、原理、特征以及基于hadoop的分布式系统的安装方法。

    人工智能自动问答系统方案设计.pptx

    2017年3月,"人工智能"首次进入我国政府工作报告 浙江省发改委制定《浙江省"互联网+"人工智能三年行动实施方案》,建示范区 国外 2005年Hadoop项目研究分布式系统基础架构 2008年末,部分计算机研究人员认可"大数据...

    AgeFades-Note:记录AgeFades学习成长笔记

    记录AgeFades 成长历程。Java重点: SpringBoot 整合各大流行框架、项目的架构实战经验开阔视野、对各项 Java圈子技术的学习与记录。前端重点: 对当下流行的 Vue + React 的学习记录目的: 为了更好了解前端同事行为,...

    2-3-人工智能关键技术.pptx

    总结 人工智能的发展历程 人工智能的标志性产品 人工智能应用现状和发展趋势 2-3-人工智能关键技术全文共14页,当前为第14页。 卷积神经网络主要用于图像处理特征。多层神经网络,将局部感受野、权值共享、亚采样这...

    leetcode题库-AgeFades-Note:记录AgeFades学习成长笔记

    成长历程。 Java 重点: SpringBoot 整合各大流行框架、项目的架构实战经验 开阔视野、对各项 Java圈子技术的学习与记录。 前端 重点: 对当下流行的 Vue + React 的学习记录 目的: 为了更好了解前端同事行为,完成...

    大数据技术-题库.pdf

    A、 利⽤分布式⽂件系统、数据仓库、关系数据库等实现对结构化、半结构化 和⾮结构化海量数据的存储和管理 B、 利⽤分布式并⾏编程模型和计算框架,结合机器学习和数据挖掘算法,实 现对海量数据的处理和分析 C、 ...

    华为ICT系列前沿技术MOOC精品课程培训视频教程汇总集【共53集】.rar

    1.3_Hadoop生态系统简介 1.4_大数据的价值与应用 1.5_大数据发展趋势 2.1_华为大数据解决方案简介 2.2_华为大数据平台架构 2.3_华为大数据商业咨询服务总体方案 2.4_大数据开发团队与社区贡献 2.5_华为大数据...

    大数据技术白皮书.pdf

    京东大数据平台建设了完整的技术体系,包括离线计算、实 时计算和机器学习平台, 可以满足多种复杂应用场景的计算任务。 元数据管理、数据质量管理、任务调度、数据开发工具、流程中 心等构成了全面的数据运营工具...

    理解大数据-实践大数据.pptx

    TRS 大数据管理系统发展历程 TRS 全文数据库 TRS 非结构化数据库 TRS 大数据 管理系统 理解大数据-实践大数据全文共48页,当前为第16页。 TRS 大数据管理系统V7.0 理解大数据-实践大数据全文共48页,当前为第17页。...

    理解大数据-实践大数据(1).pptx

    TRS 大数据管理系统发展历程 TRS 全文数据库 TRS 非结构化数据库 TRS 大数据 管理系统 理解大数据-实践大数据(1)全文共46页,当前为第15页。 TRS 大数据管理系统V7.0 理解大数据-实践大数据(1)全文共46页,当前为第...

    devops:DevOps

    资源,脚本,泊坞窗映像,工具和文档的集合,主要与用于本地开发,学习目的和快速原型制作的分布式系统有关。 发展历程 的Ubuntu # install pip3 sudo apt install -y python3-pip # install virtualenv globally ...

Global site tag (gtag.js) - Google Analytics