- 浏览: 215237 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (114)
- hbase (3)
- akka (7)
- hdfs (6)
- mapreduce (1)
- hive (0)
- zookeeper (8)
- storm (0)
- geese (0)
- leaf (0)
- stormbase (0)
- scala (2)
- oozie (11)
- zeromq (1)
- netty (3)
- mongodb (0)
- sqoop (2)
- flume (3)
- mahout (1)
- redis (0)
- lucene (1)
- solr (1)
- ganglia (3)
- 分布式理论 (2)
- hadoop (42)
- others (14)
- mq (1)
- clojure (3)
- flume ng (1)
- linux (1)
- esper (0)
最新评论
-
javalogo:
[b][i][u]引用[list]
[*][*][flash= ...
什么是Flume -
leibnitz:
what are they meanings
Hadoop Ganglia Metric Item -
di1984HIT:
没用过啊。
akka 介绍-Actor 基础 -
di1984HIT:
写的不错。
Hadoop管理-集群维护 -
developerinit:
很好,基本上介绍了
什么是Flume
转发:http://www.open-open.com/news/view/b615d7
记者 / 董世晓
2011年,对 Hadoop 来说注定是载入史册的一年:Yahoo!与风险投资公司 Benchmark Capital 联合建立独立公司 Hortonworks,接手 Yahoo!开源软件平台 Apache Hadoop;Hadoop 海量数据分析平台 Datameer、Karmasphere 和 Hadapt 分别获得千万美元级别投资;一向对开源趋势不屑一顾的微软转投 Hadoop 怀抱;Hadoop 之父 Doug Cutting 第一次莅临中国,布道 Hadoop 0.23……
可以说,Hadoop 生态系统呈现出一派欣欣向荣的景象。近日,记者专门采访了 Hadoop in China 的两位发起人——Yahoo!北京全球研发中心高级经理韩轶平和中科院计算所副研究员查礼,请他们为大家诠释 Hadoop 的现状。
Hadoop 商机无限
2011年关于 Hadoop 的众多投资以及微软等公司转向 Hadoop 的事件,昭示了业内感受到了 Hadoop 中蕴藏的商机。
韩轶平认为:“互联网行业由于拥有深厚的技术实力,所以 Hadoop 得以率先在互联网行业得到了蓬勃发展。但这不意味着其他行业便没有商机。因为不是所有企业都有能力使用 Hadoop,但需求又实实在在地摆在那儿,需要很多的技术支持、定制化产品,这便会最终催生出一个产业,来做这些方面的服务。”
查礼则解释了传统 IT 公司对 Hadoop 的态度:“微软、IBM 这些公司拥抱 Hadoop,并不是说它们在向 Hadoop 倾斜,而是将 Hadoop 作为一个标准来支持,将 Hadoop 加入到自己的产品体系或者业务架构中,并进而巩固其在这个市场上的地位。”
通过支持 Hadoop,老牌 IT 厂商用最小的代价加入大数据处理这个新兴市场,不失为明智之举。
Haoop 技术热点
NoSQL
从 2010 年 NoSQL 的好处被认识到之后,好像一夜之间在 IT 业内便已街知巷闻。目前,NoSQL 已经不再停留在学习概念和坐而论道的阶段,而是得到了广泛应用,HBase、MongoDB、Redis 等深入人心。应该说 Facebook 在这中间起到了领头羊的作用,率先采用了一些开源 NoSQL 系统来支持其大数据应用,而国内互联网企业也看到了这个趋势,并积极跟进,不断进行深入的交流和实践。
实时处理
据韩轶平介绍,现在包括 Facebook 和 Yahoo!在内的越来越多的公司都在向“实时处理”这个方向发展,而且会有更多的公司来关注怎样真正地让数据处理和分析能够越来越实时,因为处理接近实 时之后,会对业务产生深远的影响。例如对在线广告系统,如果处理时间从十分钟、一小时减少到一分钟,广告收益会有本质的区别。查礼认为,在解决了实时处理 这个“快”的问题之后,“准”的问题就迫在眉睫了。而 Hadoop/NoSQL 就能解决“准”的问题,从而实现精准营销,达到高利润、低成本的目标。
此外,Namenode、Scalability(可扩展性)、HDFS Performance 这些存在已久的问题,仍然是 Hadoop 的技术热点。
应用需求或者业务需求,说到底是要为企业赚钱。企业对经营模式、盈利模式的追求,最后导致业务追求,这种业务追求就反映到对系统的追求上,所以 这些追求决定了有哪些问题要解决。例如,High Availability(高可靠性)对电商来说至关重要,如果在圣诞节宕机一小时,损失可想而知。
两位 Hadoop in china 发起人畅谈 Hadoop 热点(左为韩轶平,右为查礼)
Hadoop 应用场景
可能是长久苦于大数据处理手段有限的缘故,随着 Hadoop 应用的不断拓展,使很多人陷入了对它的盲目崇拜中,认为它能解决一切问题。
对此,韩轶平说:“在我们研发中心的每次 Hadoop 训练班开学时,我都会告诫学员务必记住‘Hadoop 不是万能的’。在做具体工作时,首先要考量它是否适合使用 Hadoop。”这正如 Doug Cutting 所说:“如果一个小任务用一个节点就能完成,为何还多此一举用 Hadoop 呢?”但如果任务当前很小,考虑到以后会有暴涨的话,最好还是一开始就用 Hadoop 来实现,以便保持将来良好的可扩展性。因此,在动手做之前,这些问题都应该要想清楚,如果没有把握的话,可以多参加一些社区讨论和交流活动,看看哪些人、 哪些公司在做类似的事情、有哪些经验教训,参考过后,再去做选型:技术到底怎样构架、应用怎样来组合这些技术。总之,做到不迷信、不盲从。
从狭义上来说,Hadoop 就是 MapReduce+HDFS,也就是一种离线处理或者批处理的模式。一方面,如果需求是对在线请求马上得到结果,Hadoop 肯定不适合;另一方面,MapReduce 是一个简化的并行模型,假设硬件总是要坏的,所以它中间所有的交互模式都做得很可靠、简单。这样一来,Hadoop 能够处理的负载或者应用,就会相对较窄。
而互联网应用模式是一种简单模式,传统 IT 行业则复杂得多,路数与互联网企业完全不同,正因如此,Hadoop 率先在互联网企业获得成功。但以后 Hadoop 极可能应用到传统 IT 行业,比如 MIS 或者 ERP。在传统 IT 行业中,Hadoop 是否保持原样,继续是专用系统,还是慢慢演化成为通用系统,现在尚未可知,但已经显露出这样的苗头。因此,查礼断言,Hadoop 就像早期的操作系统一样,刚推出时是个专用系统,经过多年的发展,才成为通用系统。这也符合计算机行业中从专用到通用的螺旋上升趋势。
虽然目前 Hadoop 在大企业,特别是互联网大企业中应用较多,但韩轶平认为这并不是因为存在技术门槛的缘故,而是一方面要看企业是否需要做 Hadoop,另一方面则是因为像 Facebook、Google、Yahoo!这样的公司得到了较多的媒体曝光,为人所熟知,而更多的小公司,不管是国内还是国外,都在用 Hadoop,可能规模较小、业务相对简单。而数据的膨胀,也让我们很难定义何为“小”公司了:硅谷一家创业公司,员工只有 13 人,但在 Amazon 租用了 1400 台机器跑它的一个搜索业务。
Hadoop 主力谁属
Doug Cutting 曾说:“Apache 软件基金会的初衷是不希望始终有企业在某一个项目里面一家独大,我们希望有更多的人参与进来,希望有更多的交流和碰撞。”因此,尽管目前 Yhaoo!在 Hadoop 中的贡献还是最大,但其占比一直在下降,这在韩轶平看来是件好事,因为现在有更多的公司在为 Hadoop 做贡献,Hadoop 生态系统也日益完善。
目前看来,对 Yahoo!老大地位形成挑战的几家势头较猛的公司是 Cloudera、Facebook、Hortonworks,还包括国内的企业,比如华为的增长就很快。尽管华为此前从不开源,但现在还能够往 Hadoop 社区里面做贡献,也着实让人感到惊讶。韩轶平点评道:“这也从侧面反映了开源在中国慢慢得到认可了。”查礼则认为:“我觉得还是 Hadoop 给它带来了好处,或者至少没有什么坏处。”
MapR 在特定应用场景下做出了贡献
2011年 5 月,MapR 公司推出分布式文件系统和 MapReduce 引擎——MapR Distribution for Apache Hadoop,号称比开源版本的 Hadoop 性能高数倍。
对此,韩轶平解释道:“在今年的 Hadoop Summit 上,我了解到 MapR 确实在某些特定的应用场景和特定的问题规模下,起到了一定的效果。这样的优化对业界和整个社区绝对是件好事,因为总体上能够推进技术的发展。但我又不认为 它能够完全解决问题,因为要把 Hadoop 做成一个通用系统,把所有问题都解决,还有很漫长的路要走。我很欣赏针对一类具体的问题,去提供一类的优化解决方案,这是绝对可能的,因为当整个产业扩大 了以后,必然会出现某种程度上的分化或者定制化。但我不觉得它已经本质性地改变了 Hadoop。而对于它公布出来的成绩,我也不怀疑,因为它是针对某些限定条件而得出的。”
查礼也表示认同:“既然 MapR 要兼容 Hadoop,那么它的模式肯定没有创造性或者颠覆性的变化。Hadoop 本身有很多能够优化的地方,在某个 Benchmark 上完全可以做到比 Hadoop 快很多。做系统其实就是在平衡,舍弃一些特性,就像 CAP 理论一样,总是有舍有得,不可能设计出一个完美的系统。”
2012年 Hadoop 畅想
2011年,可以看作是 Hadoop 蓄势待发的准备年,那么 2012 年,Hadoop 又会怎样呢?
韩轶平讲出了他的 Hadoop 愿景:“第一,完善 Hadoop 生态系统,而不仅仅局限于 Hadoop 本身的持续开发、新特征加入和改进。第二,希望进一步根据不同的应用场景、专业领域和应用逻辑,出现更多的中间件和解决方案,因为它们能够帮助 Hadoop 走出互联网公司,走进更多的公司和行业,从而真正推动整个信息产业和行业的发展。”
查礼也畅想道:“2012年应该是 Hadoop 向传统信息领域进军的一年。在这个领域,海量数据的问题早就存在,只是没有办法解决或者解决的成本太高,再加之那种‘反正这样的问题同行们也都解决不了’ 的心态,所以就先搁置。互联网企业已经为 Hadoop 的应用做出了表率,明年完全有理由期待它在传统信息领域得到更多的应用。”
众所周知,传统行业手中握有非常多的数据,但苦于没有好的方法充分利用起来。通过像 Hadoop 这样的大数据处理技术,完全可以帮助传统行业创造出更新的价值:一方面可以使其传统业务逻辑得到更有效的实现,另一方面也能够培养出一种思维和方法,使其 慢慢从中发现更多的价值,并进而延伸出更多的价值。此外,Hadoop 还可能催生很多其他行业,例如可以将高铁网络上的所有运行数据、轨道数据采集处理以后,进行优化,就会对交通运输的价格体系和物流体系产生深远影响。
社会总是要前进,需要有更新的产业出现,Hadoop 是一个值得信赖的推动引擎。
记者 / 董世晓
2011年,对 Hadoop 来说注定是载入史册的一年:Yahoo!与风险投资公司 Benchmark Capital 联合建立独立公司 Hortonworks,接手 Yahoo!开源软件平台 Apache Hadoop;Hadoop 海量数据分析平台 Datameer、Karmasphere 和 Hadapt 分别获得千万美元级别投资;一向对开源趋势不屑一顾的微软转投 Hadoop 怀抱;Hadoop 之父 Doug Cutting 第一次莅临中国,布道 Hadoop 0.23……
可以说,Hadoop 生态系统呈现出一派欣欣向荣的景象。近日,记者专门采访了 Hadoop in China 的两位发起人——Yahoo!北京全球研发中心高级经理韩轶平和中科院计算所副研究员查礼,请他们为大家诠释 Hadoop 的现状。
Hadoop 商机无限
2011年关于 Hadoop 的众多投资以及微软等公司转向 Hadoop 的事件,昭示了业内感受到了 Hadoop 中蕴藏的商机。
韩轶平认为:“互联网行业由于拥有深厚的技术实力,所以 Hadoop 得以率先在互联网行业得到了蓬勃发展。但这不意味着其他行业便没有商机。因为不是所有企业都有能力使用 Hadoop,但需求又实实在在地摆在那儿,需要很多的技术支持、定制化产品,这便会最终催生出一个产业,来做这些方面的服务。”
查礼则解释了传统 IT 公司对 Hadoop 的态度:“微软、IBM 这些公司拥抱 Hadoop,并不是说它们在向 Hadoop 倾斜,而是将 Hadoop 作为一个标准来支持,将 Hadoop 加入到自己的产品体系或者业务架构中,并进而巩固其在这个市场上的地位。”
通过支持 Hadoop,老牌 IT 厂商用最小的代价加入大数据处理这个新兴市场,不失为明智之举。
Haoop 技术热点
NoSQL
从 2010 年 NoSQL 的好处被认识到之后,好像一夜之间在 IT 业内便已街知巷闻。目前,NoSQL 已经不再停留在学习概念和坐而论道的阶段,而是得到了广泛应用,HBase、MongoDB、Redis 等深入人心。应该说 Facebook 在这中间起到了领头羊的作用,率先采用了一些开源 NoSQL 系统来支持其大数据应用,而国内互联网企业也看到了这个趋势,并积极跟进,不断进行深入的交流和实践。
实时处理
据韩轶平介绍,现在包括 Facebook 和 Yahoo!在内的越来越多的公司都在向“实时处理”这个方向发展,而且会有更多的公司来关注怎样真正地让数据处理和分析能够越来越实时,因为处理接近实 时之后,会对业务产生深远的影响。例如对在线广告系统,如果处理时间从十分钟、一小时减少到一分钟,广告收益会有本质的区别。查礼认为,在解决了实时处理 这个“快”的问题之后,“准”的问题就迫在眉睫了。而 Hadoop/NoSQL 就能解决“准”的问题,从而实现精准营销,达到高利润、低成本的目标。
此外,Namenode、Scalability(可扩展性)、HDFS Performance 这些存在已久的问题,仍然是 Hadoop 的技术热点。
应用需求或者业务需求,说到底是要为企业赚钱。企业对经营模式、盈利模式的追求,最后导致业务追求,这种业务追求就反映到对系统的追求上,所以 这些追求决定了有哪些问题要解决。例如,High Availability(高可靠性)对电商来说至关重要,如果在圣诞节宕机一小时,损失可想而知。
两位 Hadoop in china 发起人畅谈 Hadoop 热点(左为韩轶平,右为查礼)
Hadoop 应用场景
可能是长久苦于大数据处理手段有限的缘故,随着 Hadoop 应用的不断拓展,使很多人陷入了对它的盲目崇拜中,认为它能解决一切问题。
对此,韩轶平说:“在我们研发中心的每次 Hadoop 训练班开学时,我都会告诫学员务必记住‘Hadoop 不是万能的’。在做具体工作时,首先要考量它是否适合使用 Hadoop。”这正如 Doug Cutting 所说:“如果一个小任务用一个节点就能完成,为何还多此一举用 Hadoop 呢?”但如果任务当前很小,考虑到以后会有暴涨的话,最好还是一开始就用 Hadoop 来实现,以便保持将来良好的可扩展性。因此,在动手做之前,这些问题都应该要想清楚,如果没有把握的话,可以多参加一些社区讨论和交流活动,看看哪些人、 哪些公司在做类似的事情、有哪些经验教训,参考过后,再去做选型:技术到底怎样构架、应用怎样来组合这些技术。总之,做到不迷信、不盲从。
从狭义上来说,Hadoop 就是 MapReduce+HDFS,也就是一种离线处理或者批处理的模式。一方面,如果需求是对在线请求马上得到结果,Hadoop 肯定不适合;另一方面,MapReduce 是一个简化的并行模型,假设硬件总是要坏的,所以它中间所有的交互模式都做得很可靠、简单。这样一来,Hadoop 能够处理的负载或者应用,就会相对较窄。
而互联网应用模式是一种简单模式,传统 IT 行业则复杂得多,路数与互联网企业完全不同,正因如此,Hadoop 率先在互联网企业获得成功。但以后 Hadoop 极可能应用到传统 IT 行业,比如 MIS 或者 ERP。在传统 IT 行业中,Hadoop 是否保持原样,继续是专用系统,还是慢慢演化成为通用系统,现在尚未可知,但已经显露出这样的苗头。因此,查礼断言,Hadoop 就像早期的操作系统一样,刚推出时是个专用系统,经过多年的发展,才成为通用系统。这也符合计算机行业中从专用到通用的螺旋上升趋势。
虽然目前 Hadoop 在大企业,特别是互联网大企业中应用较多,但韩轶平认为这并不是因为存在技术门槛的缘故,而是一方面要看企业是否需要做 Hadoop,另一方面则是因为像 Facebook、Google、Yahoo!这样的公司得到了较多的媒体曝光,为人所熟知,而更多的小公司,不管是国内还是国外,都在用 Hadoop,可能规模较小、业务相对简单。而数据的膨胀,也让我们很难定义何为“小”公司了:硅谷一家创业公司,员工只有 13 人,但在 Amazon 租用了 1400 台机器跑它的一个搜索业务。
Hadoop 主力谁属
Doug Cutting 曾说:“Apache 软件基金会的初衷是不希望始终有企业在某一个项目里面一家独大,我们希望有更多的人参与进来,希望有更多的交流和碰撞。”因此,尽管目前 Yhaoo!在 Hadoop 中的贡献还是最大,但其占比一直在下降,这在韩轶平看来是件好事,因为现在有更多的公司在为 Hadoop 做贡献,Hadoop 生态系统也日益完善。
目前看来,对 Yahoo!老大地位形成挑战的几家势头较猛的公司是 Cloudera、Facebook、Hortonworks,还包括国内的企业,比如华为的增长就很快。尽管华为此前从不开源,但现在还能够往 Hadoop 社区里面做贡献,也着实让人感到惊讶。韩轶平点评道:“这也从侧面反映了开源在中国慢慢得到认可了。”查礼则认为:“我觉得还是 Hadoop 给它带来了好处,或者至少没有什么坏处。”
MapR 在特定应用场景下做出了贡献
2011年 5 月,MapR 公司推出分布式文件系统和 MapReduce 引擎——MapR Distribution for Apache Hadoop,号称比开源版本的 Hadoop 性能高数倍。
对此,韩轶平解释道:“在今年的 Hadoop Summit 上,我了解到 MapR 确实在某些特定的应用场景和特定的问题规模下,起到了一定的效果。这样的优化对业界和整个社区绝对是件好事,因为总体上能够推进技术的发展。但我又不认为 它能够完全解决问题,因为要把 Hadoop 做成一个通用系统,把所有问题都解决,还有很漫长的路要走。我很欣赏针对一类具体的问题,去提供一类的优化解决方案,这是绝对可能的,因为当整个产业扩大 了以后,必然会出现某种程度上的分化或者定制化。但我不觉得它已经本质性地改变了 Hadoop。而对于它公布出来的成绩,我也不怀疑,因为它是针对某些限定条件而得出的。”
查礼也表示认同:“既然 MapR 要兼容 Hadoop,那么它的模式肯定没有创造性或者颠覆性的变化。Hadoop 本身有很多能够优化的地方,在某个 Benchmark 上完全可以做到比 Hadoop 快很多。做系统其实就是在平衡,舍弃一些特性,就像 CAP 理论一样,总是有舍有得,不可能设计出一个完美的系统。”
2012年 Hadoop 畅想
2011年,可以看作是 Hadoop 蓄势待发的准备年,那么 2012 年,Hadoop 又会怎样呢?
韩轶平讲出了他的 Hadoop 愿景:“第一,完善 Hadoop 生态系统,而不仅仅局限于 Hadoop 本身的持续开发、新特征加入和改进。第二,希望进一步根据不同的应用场景、专业领域和应用逻辑,出现更多的中间件和解决方案,因为它们能够帮助 Hadoop 走出互联网公司,走进更多的公司和行业,从而真正推动整个信息产业和行业的发展。”
查礼也畅想道:“2012年应该是 Hadoop 向传统信息领域进军的一年。在这个领域,海量数据的问题早就存在,只是没有办法解决或者解决的成本太高,再加之那种‘反正这样的问题同行们也都解决不了’ 的心态,所以就先搁置。互联网企业已经为 Hadoop 的应用做出了表率,明年完全有理由期待它在传统信息领域得到更多的应用。”
众所周知,传统行业手中握有非常多的数据,但苦于没有好的方法充分利用起来。通过像 Hadoop 这样的大数据处理技术,完全可以帮助传统行业创造出更新的价值:一方面可以使其传统业务逻辑得到更有效的实现,另一方面也能够培养出一种思维和方法,使其 慢慢从中发现更多的价值,并进而延伸出更多的价值。此外,Hadoop 还可能催生很多其他行业,例如可以将高铁网络上的所有运行数据、轨道数据采集处理以后,进行优化,就会对交通运输的价格体系和物流体系产生深远影响。
社会总是要前进,需要有更新的产业出现,Hadoop 是一个值得信赖的推动引擎。
发表评论
-
Hadoop TestDFSIO
2013-04-21 21:02 2412@VM [bigdata@bigdata hadoo ... -
Hadoop NNBENCH
2013-04-21 20:46 1613@VM [bigdata@bigdata hadoop]$ ... -
Hadoop 安装手册
2013-04-08 15:47 1169Hadoop 安装手册 软件准备 ... -
What do real life hadoop workloads look like
2012-09-10 15:52 796http://www.cloudera.com/blog/20 ... -
CDH4 HA 切换时间
2012-09-05 15:15 4315blocksize:35M filesize 96M zk-s ... -
CDH4 HA 切换
2012-09-05 10:51 1343HA 切换问题 切换时间太长。。。 copy 0 ... ... -
Hadoop CDh4 Standby HA 启动过程
2012-08-02 11:40 2838根据日志: StandBy NN启动过程 1.获得Active ... -
CDH4 HA test
2012-08-01 14:55 2595场景: NN HA 设置成功,HA切换客户端出现异 ... -
Hadoop TextOutput
2012-07-29 21:08 881TextOutputFormat 分隔符参数: mapredu ... -
Hadoop SteamXMLRecordReader
2012-07-28 23:59 679StreamXmlRecordReader 设置属性 str ... -
Hadoop NLineInputFormat
2012-07-28 23:52 1609NLineInputFormat 重写了splits 设置 ... -
KeyValueTextInputFormat
2012-07-28 23:40 930key/value 分割符 mapreduce.input. ... -
Hadoop 控制split尺寸
2012-07-28 23:08 1303三个参数决定Map的Split尺寸 1.mapred.min ... -
Setting up Disks for Hadoop
2012-07-22 12:13 848Setting up Disks for Hadoop He ... -
Upgrade hadoop need think about it
2012-07-21 17:17 849Compatibility When movin ... -
Hadoop 0.23 config differ from 0.20.205
2012-07-21 17:14 902http://hadoop.apache.org/common ... -
Hadoop hdfs block 状态
2012-07-15 13:37 6971.In Service -
Hadoop 配置不当引起集群不稳
2012-07-05 15:35 994配置不当内容 资源配置不当:内存、文件句柄数量、磁盘空间 ... -
Hadoop管理-集群维护
2012-07-03 15:27 49661.检查HDFS状态 fsck命令 1)f ... -
Hadoop Ganglia Metric Item
2012-06-27 11:13 1997dfs.FSDirectory.files_delete ...
相关推荐
Hadoop 在大数据运算中的限制 Hadoop不是万能的,实时运算及统计中,Hadoop还是有很多限制的。这篇文章论述了这些限制,指出了 Hadoop 运用上的一些误区。值得一读。
在windows环境下开发hadoop时,需要配置HADOOP_HOME环境变量,变量值D:\hadoop-common-2.7.3-bin-master,并在Path追加%HADOOP_HOME%\bin,有可能出现如下错误: org.apache.hadoop.io.nativeio.NativeIO$Windows....
《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf《Hadoop大数据开发实战》教学教案—01初识Hadoop.pdf...
Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo 的工程师 Doug Cutting 和 Mike Cafarella Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。最初由 Yahoo...
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不...
本书从hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍hado叩这一高性能处理海量数据集的理想工具。全书共14章,3个附录,涉及的主题包括:haddoop简介:mapreduce简介:hadoop分布式文件系统;hadoop的i...
hadoop_tutorial hadoop入门经典 Hadoop 是一个能够对大量数据进行分布式处理的软件框架。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。...
hadoop2.7.3 Winutils.exe hadoop.dll
hadoop的dll文件 hadoop.zip
Hadoop 集群配置详解 Hadoop_Hadoop集群(第1期)_CentOS安装配置 Hadoop_Hadoop集群(第2期)_机器信息分布表 Hadoop_Hadoop集群(第4期)_SecureCRT使用 Hadoop_Hadoop集群(第5期)_Hadoop安装配置 Hadoop_Hadoop...
hadoop-annotations-3.1.1.jar hadoop-common-3.1.1.jar hadoop-mapreduce-client-core-3.1.1.jar hadoop-yarn-api-3.1.1.jar hadoop-auth-3.1.1.jar hadoop-hdfs-3.1.1.jar hadoop-mapreduce-client-hs-3.1.1.jar ...
调用保存文件的算子,需要配置Hadoop依赖 将文件夹中的 hadoop-3.0.0 解压到电脑任意位置 在Python代码中使用os模块配置:os.environ[‘HADOOP_HOME’] = ‘HADOOP解压文件夹路径’ winutils.exe,并放入Hadoop解压...
Hadoop大数据资料集锦Hadoop大数据资料集锦Hadoop大数据资料集锦Hadoop大数据资料集锦
Apache Hadoop (hadoop-3.3.4.tar.gz)项目为可靠、可扩展的分布式计算开发开源软件。官网下载速度非常缓慢,因此将hadoop-3.3.4 版本放在这里,欢迎大家来下载使用! Hadoop 架构是一个开源的、基于 Java 的编程...
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合...
支持如下版本的Hadoop hadoop-2.6.0 hadoop-2.6.3 hadoop-2.6.4 hadoop-2.7.1 hadoop-2.8.1 hadoop-2.8.3 hadoop-3.0.0
hadoop hadoop的hadoop.dll和winutils.exe 解决方法, 把winutils.exe加入你的hadoop-x.x.x/bin下 Could not locate executable null\bin\winutils.exe in the Hadoop binaries
hadoop3.1.3安装包
hadoop的hadoop.dll和winutils.exe下载
Hadoop豆瓣电影数据分析(Hadoop)操作源码