阅读更多
Hadoop擅长分析和处理大型数据集,而MongoDB擅长存储应用程序的大型数据集,这两者结合到一起,就诞生了Mongo-Hadoop——MongoDB主要负责存储和查询,Hadoop主要负责批处理。

今天Mongo开发团队发布了Mongo-Hadoop 1.1版本。

项目地址:https://github.com/mongodb/mongo-hadoop

Mongo-Hadoop可以很容易地使用Mongo数据库库以及.bson格式的mongoDB备份文件,并将此作为Hadoop Map/Reduce任务的数据输入源或者输出目标。Mongo-Hadoop先检测数据并计算数据分割,然后交给Hadoop并行处理,这样非常大的数据集就可以快速被处理。

Mongo-Hadoop支持PigHive,这两个开源项目允许编写非常简单的脚本来执行非常复杂的MapReduce工作流。

Mongo-Hadoop还支持Hadoop streaming,这样你可以使用Java以及其他任何编程语言来编写map/reduce函数。目前Mongo-Hadoop支持Ruby、Node.js和Python中的streaming。

Mongo-Hadoop的工作流程如下:

  • Mongo-Hadoop首先检查MongoDB Collection,并计算数据分割
  • 每个分割部分被分配到Hadoop集群中的一个节点
  • 同时,Hadoop节点从MongoDB(或BSON)获取数据,并进行本地处理
  • Hadoop合并结果,并输出到MongoDB或BSON
详细信息:http://blog.mongodb.org/post/57611443904/mongo-hadoop-1-1
6
0
评论 共 1 条 请登录后发表评论
1 楼 yun900800 2013-08-14 09:06
[color=darkred][/color]22
[size=x-small][/size]

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 比尔·盖茨也喜欢用Linux?.pdf

    比尔·盖茨也喜欢用Linux?.pdf

  • 世界上最好的学习法:费曼学习法

    你是否曾幻想读一遍书就记住所有的内容?是否想学习完一项技能就马上达到巅峰水平?除非你是天才,不然这是不可能的。对于大多数的普通人来说,可以通过笨办法(死记硬背)来达到学习的目的,但效率低下。当然,也可以通过优秀的学习法来进行学习,比如今天讲的“费曼学习法”,可以将你的学习效率极大的提高。 费曼学习法是由加拿大物理学家费曼所发明的一种高效的学习方法,费曼本身是一个天才,13岁自学微积分,24岁加入曼...

  • linux病毒木马分析,Linux平台“盖茨木马”分析

    最近对Linux.BackDoor.Gates.6的一个病毒样本进行了分析,通过调查发现Linux盖茨木马是一类有着丰富历史,隐藏手法巧妙,网络攻击行为显著的DDoS木马。这篇文章主要介绍了Linux盖茨木马的分析过程,同时会讲解在Linux环境下恶意软件分析的常用技巧和安全工具的使用方法。盖茨木马整体情况此类Linux木马主要恶意特点是具备了后门程序,DDoS攻击的能力,并且会替换常用的系统文件...

  • 比尔盖茨离婚事件:给想进互联网大厂的人的唯一启示

    前几天的五四青年节,当今世界最富有的一对夫妇官宣离婚,瞬间登上热搜第一。 65岁的比尔盖茨和56岁的梅琳达,宣布结束27年的婚姻关系。 其中最让人感慨的是这样一句话: 我们不再相信在生命的下一段还能一起成长。 这是一句极有格调的离婚理由,体面又含蓄。 但很多网友觉得假,纷纷调侃“太励志”: 都首富了,还要提升? 其实我看完这个离婚声明,并不觉得假,反而觉得这恰恰就是他们离婚的理由,只是他们说出彼此成长,并不是我们很多人理解:“赚钱、升职”,而是一种更高层次的精神追求。 什么是彼此

  • 行业分析

    第四章 行业分析   了解行业和行业分析的定义;了解行业与产业的差别;熟悉行业分析的任务、地位及意义;熟悉行业分析与公司分析、宏观分析的关系;掌握行业分类方法。   了解行业的市场结构及各类市场的含义、特点及构成;熟悉政府完全垄断与私人完全垄断的概念;掌握行业集中度概念;熟悉以行业集中度为划分标准的产业市场结构分类;熟悉行业竞争结构的五因素及其静动态影响;了解产业价值链概念;   掌握行业的

  • Linux的桌面环境比较与选择(gnome、kde、xfce、lxde 等)

    linux操作系统因为逐步优化了图形桌面、增加了非服务器端个人应用,普通用户越来越多的也转入linux阵营。但是linux的图形桌面繁多,到底选择哪一个好,是否是自己喜欢的风格,资源占用情况高不高,下面给大家提供一个选择前参考。 GNOME 2.x GNOME 2.x 作为大家熟识的传统界面,默认2个面板。在系统资源占用方面,GNOME 2.x 较GNOME 3 要求 RAM 较少、CPU较高。在这两个方面: XFCE ,LXDE < GNOME 2.x 在目前发行版本中,LIn...

  • mongo-hadoop集成

    当hadoop集群需要借助mongodb的数据进行辅助分析时,为了快速实施我们需要将hive集成...wgethttps://repo1.maven.org/maven2/org/mongodb/mongo-hadoop/mongo-hadoop-core/2.0.2/mongo-hadoop-core-2.0.2.jar;​ ​ w..

  • mongo-hadoop:适用于HadoopMongoDB连接器

    用于HadoopMongoDB连接器是一个库,该库允许将MongoDB(或数据格式为BSON的备份文件)用作Hadoop MapReduce任务的输入源或输出目标。 它旨在提供更大的灵活性和性能,并使MongoDB中的数据与Hadoop生态系统的其他部分...

  • mongo-hadoop-core-2.0.0

    mongo-hadoop-core-2.0.0.jar x x s s sa a a s dd . d d

  • mongo-hadoop-core-1.2.1-SNAPSHOT-hadoop_1.0

    The MongoDB Connector for Hadoop is a library which allows MongoDB (or backup files in its data format, BSON) to be used as an input source, or output destination, for Hadoop MapReduce tasks....

  • mongo-hadoop-hive-2.0.0

    mongo-hadoop-hive-2.0.0.jar xx cc vvs . dd s . s ww w .

  • [渝粤教育] 西南科技大学 经济法学 在线考试复习资料(1)

    经济法学——在线考试复习资料 一、单选题 1.两个以上为数不多的企业生产.销售某种特定的产品或者服务的状况是( ) A.独占垄断 B.寡头垄断 C.完全垄断 D.联合垄断 2.误导行为和商业诋毁行为的共同点是( ) A.将他人的商品冒充为自己的商品予以销售 B.使用与他人商业标识 C.都进行虚假宣传 D.采取回扣方式销售 3.市场调节的实质是( ) A.利用计划对市场进行调节 B.利用价值规律对市场进行调节 C.利用公权力对市场进行调节 D.利用价值规律和公权力相结合对市场进行调节 4.国家对某一产业的生产

  • Linux应急响应-盖茨木马的处置方式

    Linux盖茨木马应急处置方式 Linux盖茨木马是一类有着丰富历史,隐藏手法巧妙,网络攻击行为显著的DDoS木马,BillGates攻击程序采用C/C++语言编写,因相关的程序中分别包含”Bill”和”Gates”而得名。相比其他类型DDoS程序攻击模式,BillGates具备内核模式,使用pktgen,在内核中生成攻击数据包,进而可以避免被传播的抓包或嗅探工具捕获到。 BillGates的攻击模式主要有: ⚫TCP-SYN Flood ⚫UDP Flood ⚫DNS Flood ⚫ICMP Flood

  • flink DataSet 连接 mongos集群使用mongo-hadoop

    flink 官方示例比较简单,也很久没更新过了。...这里是单线程读取,还不清楚可不可以通过配置实现并行读取。 import com.mongodb.hadoop.MongoInputFormat; import com.mongodb.hadoop.MongoOutputFormat; impo...

  • hadoop(番外)——mongodb-hadoop(基础配置)

    简介 mongo-hadoop是用于Hadoop的MongoDB连接器是一个库...它旨在提供更大的灵活性和性能,并使MongoDB中的数据与Hadoop生态系统的其他部分轻松集成。 下载地址:https://github.com/mongodb/mongo-hadoop 跳转→ 特...

  • 通过mongo-hadoop(pymongo_spark)从PySpark保存数据到MongoDB

    PySpark to connect to MongoDB via mongo-hadoop 二、配置步骤 (注意版本作相应调整,spark-2.4.3,hadoop2.7,Scala2.11) 1. # Get the MongoDB Java Driver #PROJECT_HOME 自定义的项目根目录,下面...

  • 在 EMR 中使用 Mongo-Hadoop

    Mongo-Hadoop 是 MongoDB 推出的用于 Hadoop 系列组件连接 MongoDB 的组件。其原理跟我们上一篇文章介绍的 ES-Hadoop 类似。EMR 中已经集成了 Mongo-Hadoop,用户不用做任何部署配置,即可使用 Mongo-Hadoop。下面...

  • MUG-Nantes-Demo-Hadoop:适用于HadoopMongoDB连接器演示

    MongoDB Hadoop演示连接器 幻灯片: : 步骤0-建立 Java cd spark/java mvn clean package assembly:single 第1步-导入数据 清洁(蒙古壳) use marketdata db.stock_prices.drop () 资料来源:cf。 进口 mongo...

  • 矿大京-大数据技术实验课-Hadoop集群下的数据库操作

    在给定的Ubuntu Linux+hadoop3.1.3环境上,分别用hbase、redis、mongodb、hive(redis、mongodb、hive需自行安装,无版本要求)所属的shell命令,建立相应数据结构,并增加本人的学号、姓名、性别、数据库课程成绩,...

  • MongoDB北京2014 - MongoDB和Hadoop 完美大数据方案 - 周思远

Global site tag (gtag.js) - Google Analytics