`
xuyuanshuaaa
  • 浏览: 388435 次
  • 性别: Icon_minigender_1
  • 来自: 大连
社区版块
存档分类
最新评论

Hadoop的一些理解及当前的流行应用

阅读更多
    想给中小型客户提供存储和灾备服务,研究一下hadoop。根据网上的一些文档,我已经成功搭建起了hadoop集群的环境,一个namenode节点 三个datanode几点 搭建好后,通过web也能正常访问。用wordcount.java上传数据到hdfs中也正常。但是我现在有点迷茫的是,这个已经搭建好的hadoop环境到底能做些什么?如何使用呢?因为我事先了解的情况时hadoop只是一个底层的架构,要实现我所说的提供存储和灾备服务,是否还要进行二次开发?

1、hadoop的强项在于对海量数据的分析以及复杂的业务逻辑的处理。在做到这个工作之前,首先是需要将数据上传到HDFS中。如果你仅仅是只存不分析数据,我觉得还不如放在本地硬盘或是做一个磁盘阵列存放合适。完全没必要使用hadoop。
2、对于容灾和抗灾,最近我也在考虑这个,应为数据多了,存放的地方也大,所以必须要求数据的备份机制比较晚上。对于hadoop而言,默认的是3份备份(可参看配置文件),个人觉得好算是完善,但是前提是你必须把你的网络拓扑图抽象的告诉hadoop集群(默认情况下,所有的集群都在一个水平位置)。建议可以看看hadoop提供的机架感知的备份机制。感觉还可以以,不仅能提升数据分析速度,也能做到异地容灾。

HDFS的存储功能主要是2个。
一个是容错能力,默认有3个备份,各种资料上说提供海量存储能力,事实上我觉得存储容量并没有增加,磁盘硬件存储能力是多少,HDFS的总存储能力就是所有磁盘的能力相加。和普通的系统没有区别。
第二个是存储大型文件,比如一个文件100G,但假如你的廉价PC的硬盘只有80G,那么用普通系统是无法存储的,这时你需要去买更贵的磁盘来存储此类文件。而HDFS提供的就是将许多廉价存储器集合起来,能够存储大型文件的能力。
所以我个人觉得,如果要用HDFS来作存储演示,只能从容错和存储大型文件角度来展示功能。不然和普通FS没有明显区别。
hadoop的机架感知功能,通过配置可以通知集群机器的网络位置。如果不配置,默认所有的集群都在同一水平位置上

国内外著名的互联网公司使用hadoop都做了什么?谈HADOOP在大规模数据处理领域的具体应用。
------------ 二月 18th, 2011
hadoop在淘宝应用很多,淘宝网是国内最大的Hadoop应用商之一。

2010年九月三号的数据显示:

淘宝集群的规模是
1.总容量为9.3PB,利用率77.09%。
2.共有1100台机器。
3.每天处理约18000道hadoop作业
4. 用户数474人,用户组38个
5.约18000道作业/天,扫描数据:约500TB/天用户数474人,用户组38个

其他:

HADOOP在阿里巴巴:

用于处理商业数据的排序,并将其应用于阿里巴巴的ISEARCH搜索引擎,垂直商业搜索引擎。

节点数: 15台机器的构成的服务器集群

服务器配置: 8核CPU,16G内存,1.4T硬盘容量。
HADOOP在百度:

HADOOP主要应用日志分析,同时使用它做一些网页数据库的数据挖掘工作。

节点数:10 - 500个节点。

周数据量: 3000TB
HADOOP在Facebook:

主要用于存储内部日志的拷贝,作为一个源用于处理数据挖掘和日志统计。

主要使用了2个集群:

一个由1100台节点组成的集群,包括8800核CPU(即每台机器8核),和12000TB的原始存储(即每台机器12T硬盘)

一个有300台节点组成的集群,包括2400核CPU(即每台机器8核),和3000TB的原始存储(即每台机器12T硬盘)

由此基础上开发了基于SQL语法的项目:HIVE
HADOOP在HULU

主要用于日志存储和分析

13台机器构成的集群 (8核PUC,单台机器:4TB硬盘)

基于HBASE数据库
HADOOP在TWITTER

使用HADOOP用于存储微博数据,日志文件和许多中间数据

使用基于HADOOP构件的Cloudera's CDH2系统,存储压缩后的数据文件(LZO格式)
HADOOP在雅虎:

主要用于支持广告系统及网页搜索

机器数:25000,CPU:8核

集群机器数:  4000 个节点  (2*4cpu boxes w 4*1TB disk & 16GB RAM)
分享到:
评论

相关推荐

    《Hadoop与大数据挖掘》配套资源【完整版】.txt

    在每个模块的最后,会有一到两个企业案例,对这些企业案例的介绍只限于部分介绍,主要还是使用当前模块的技术来解决其中的一到两个问题,这样读者不仅对技术的原理、架构有了较深入的了解,同时,对于如何应用该技术...

    基于Hadoop大数据分析应用场景与实战

    本文来自于linkedkeeper.com,本文主要介绍了一下kafka的基本概念,并结合一些实验帮助理解kafka中的一些难点,如多个consumer的容错性机制,offset管理。为了满足日益增长的业务变化,京东的京麦团队在京东大数据...

    理解大数据-实践大数据.pptx

    内容 对大数据的理解 拓尔思大数据产品布局和应用实践 理解大数据-实践大数据全文共48页,当前为第2页。 反对派认为,我们现在处在一个盲目的大数据崇拜时代 理解大数据-实践大数据全文共48页,当前为第3页。 ...

    理解大数据-实践大数据(1).pptx

    内容 对大数据的理解 xxx大数据产品布局和应用实践 理解大数据-实践大数据(1)全文共46页,当前为第1页。 反对派认为,我们现在处在一个盲目的大数据崇拜时代 理解大数据-实践大数据(1)全文共46页,当前为第2页。 ...

    大数据的应用.doc

    大数据的应用 1.大数据和开源 Apache Hadoop、Spark和其他开源应用程序已经成为大数据技术空间的主流,而且这种趋势似乎 可能会持续下去。... ----------------------- 大数据的应用全文共1页,当前为第1页。

    第3章-大数据存储技术----大数据基础.pptx

    目录 2 理解HDFS分布式文件系统 NoSQL数据库 Hadoop的安装和配置 HDFS文件管理 Hbase的安装和配置 Hbase的使用 第3章-大数据存储技术----大数据基础全文共111页,当前为第2页。 HDFS简介 3 HDFS文件系统的特点: 1....

    大数据实验报告.docx

    3、拓展练习,掌握Hadoop与已学内容的综合应用。 4、掌握MapReduce编程模型 5、通过社交好友推荐学会MapReduce的编程思路 开发工具 1、Jdk 2、Hadoop 3、Eclipse 项目描述 如果A和B具有好友关系,B和C具有好友关系...

    大数据架构师的岗位职责.docx

    3、精通分布式计算框架(hadoop、spark、Storm等)及相关经验,熟练掌握Hive/SQL,Python,熟悉Python、R相关数值科学计算库(NumPy,SciPy等); 4、了解传统的BI/DW 理论,能结合传统BI***实践设计大数据平台; 5、熟悉...

    BI与大数据区别.docx

    不同的应用场景需要不同的大数据处理方法了,而且不再有人机交互那么好的客户端了,至少要懂流处理、HADOOP、列式或分布式键值数据库吧,还需要能在SPARK上开发算法程序,对于用户画像、产品标签化、推荐系统、排序...

    全栈数据之门 , 任柳江 pdf

    可以把《全栈数据之门》当成一本技术文集,内容定位于数据科学的全栈基础入门,全部内容来自当前业界最实用的技能,有非常基础的,也有比较深入的,有些甚至需要深入领悟才能理解。, 《全栈数据之门》适用于任何想...

    大数据与互联网经济解读.pptx

    第一章 大数据概念与应用 of 40 8 1.1 大数据的概念与意义 3)智能:机器拥有理解数据的能力 大数据带来的最大价值就是"智慧",大数据让机器变得有智慧,同时人工智能进一步提升了处理和理解数据的能力。...

    传统分析与大数据分析的对比.docx

    当在市场上有大数据分析的应用系统时,它同样可以通过通用的硬件和新一代的分析软件,像Hadoop或其他分析数据库来实现。 主要的IT公司对分析软件和应用系统供应商的购买已经成为一种日常现象。我们已经看到"大数据...

    大数据处理的关键技术.docx

    在数据分析中,云技术与传统方法之间进行联合,使得一些传统的数据分析方法能够成功地运用到大数据的范畴中来。 一、数据的采集技术 数据的采集是指利用多个数据库来接收发自客户端(Web、App或传感器形式等)的各种...

    预测算法调研报告.doc

    但是Hadoop在实际应用过程中仍存在很多不足: 第一、一个MapReduce任务只有M ap和Reduce两个阶段,复杂的计算需要大量的Job共同完成,Job之间的依赖关系需要由 开发者自己管理,这增加了开发者的研发难度。...

    大数据的概念.docx

    最后一个特点是指数据真实性(Veracity)高,随着社交数据、企业内容、交易与应用数据等新数据源的兴趣,传统数据源的局限被打破,企业愈发需要有效的信息之力以确保其真实性及安全性。 百度知道—大数据概念大数据...

    服务器工程师岗位主要职责.doc

    方案 4、服务器发生系统故障时的分析与解决 5、微软体系架构的设计 岗位要求: 1、具有VCP或微软方面的认证证书 2、精通虚拟化及Windows各类应用 3、大专以上学历,计算机专业,英语精通 4、有三年以上从事服务器...

Global site tag (gtag.js) - Google Analytics