阅读更多
Hadoop擅长分析和处理大型数据集,而MongoDB擅长存储应用程序的大型数据集,这两者结合到一起,就诞生了Mongo-Hadoop——MongoDB主要负责存储和查询,Hadoop主要负责批处理。

今天Mongo开发团队发布了Mongo-Hadoop 1.1版本。

项目地址:https://github.com/mongodb/mongo-hadoop

Mongo-Hadoop可以很容易地使用Mongo数据库库以及.bson格式的mongoDB备份文件,并将此作为Hadoop Map/Reduce任务的数据输入源或者输出目标。Mongo-Hadoop先检测数据并计算数据分割,然后交给Hadoop并行处理,这样非常大的数据集就可以快速被处理。

Mongo-Hadoop支持PigHive,这两个开源项目允许编写非常简单的脚本来执行非常复杂的MapReduce工作流。

Mongo-Hadoop还支持Hadoop streaming,这样你可以使用Java以及其他任何编程语言来编写map/reduce函数。目前Mongo-Hadoop支持Ruby、Node.js和Python中的streaming。

Mongo-Hadoop的工作流程如下:

  • Mongo-Hadoop首先检查MongoDB Collection,并计算数据分割
  • 每个分割部分被分配到Hadoop集群中的一个节点
  • 同时,Hadoop节点从MongoDB(或BSON)获取数据,并进行本地处理
  • Hadoop合并结果,并输出到MongoDB或BSON
详细信息:http://blog.mongodb.org/post/57611443904/mongo-hadoop-1-1
6
0
评论 共 1 条 请登录后发表评论
1 楼 yun900800 2013-08-14 09:06
[color=darkred][/color]22
[size=x-small][/size]

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 比尔·盖茨也喜欢用Linux?.pdf

    比尔·盖茨也喜欢用Linux?.pdf

  • [渝粤教育] 西南科技大学 经济法学 在线考试复习资料(1)

    经济法学——在线考试复习资料 一、单选题 1.两个以上为数不多的企业生产.销售某种特定的产品或者服务的状况是( ) A.独占垄断 B.寡头垄断 C.完全垄断 D.联合垄断 2.误导行为和商业诋毁行为的共同点是( ) A.将他人的商品冒充为自己的商品予以销售 B.使用与他人商业标识 C.都进行虚假宣传 D.采取回扣方式销售 3.市场调节的实质是( ) A.利用计划对市场进行调节 B.利用价值规律对市场进行调节 C.利用公权力对市场进行调节 D.利用价值规律和公权力相结合对市场进行调节 4.国家对某一产业的生产

  • 世界上最好的学习法:费曼学习法

    你是否曾幻想读一遍书就记住所有的内容?是否想学习完一项技能就马上达到巅峰水平?除非你是天才,不然这是不可能的。对于大多数的普通人来说,可以通过笨办法(死记硬背)来达到学习的目的,但效率低下。当然,也可以通过优秀的学习法来进行学习,比如今天讲的“费曼学习法”,可以将你的学习效率极大的提高。 费曼学习法是由加拿大物理学家费曼所发明的一种高效的学习方法,费曼本身是一个天才,13岁自学微积分,24岁加入曼...

  • 行业分析

    第四章 行业分析   了解行业和行业分析的定义;了解行业与产业的差别;熟悉行业分析的任务、地位及意义;熟悉行业分析与公司分析、宏观分析的关系;掌握行业分类方法。   了解行业的市场结构及各类市场的含义、特点及构成;熟悉政府完全垄断与私人完全垄断的概念;掌握行业集中度概念;熟悉以行业集中度为划分标准的产业市场结构分类;熟悉行业竞争结构的五因素及其静动态影响;了解产业价值链概念;   掌握行业的

  • mongo-hadoop集成

    当hadoop集群需要借助mongodb的数据进行辅助分析时,为了快速实施我们需要将hive集成...wgethttps://repo1.maven.org/maven2/org/mongodb/mongo-hadoop/mongo-hadoop-core/2.0.2/mongo-hadoop-core-2.0.2.jar;​ ​ w..

  • mongo-hadoop:适用于HadoopMongoDB连接器

    用于HadoopMongoDB连接器是一个库,该库允许将MongoDB(或数据格式为BSON的备份文件)用作Hadoop MapReduce任务的输入源或输出目标。 它旨在提供更大的灵活性和性能,并使MongoDB中的数据与Hadoop生态系统的其他部分...

  • mongo-hadoop-core-2.0.0

    mongo-hadoop-core-2.0.0.jar x x s s sa a a s dd . d d

  • mongo-hadoop-core-1.2.1-SNAPSHOT-hadoop_1.0

    The MongoDB Connector for Hadoop is a library which allows MongoDB (or backup files in its data format, BSON) to be used as an input source, or output destination, for Hadoop MapReduce tasks....

  • mongo-hadoop-hive-2.0.0

    mongo-hadoop-hive-2.0.0.jar xx cc vvs . dd s . s ww w .

  • flink DataSet 连接 mongos集群使用mongo-hadoop

    flink 官方示例比较简单,也很久没更新过了。...这里是单线程读取,还不清楚可不可以通过配置实现并行读取。 import com.mongodb.hadoop.MongoInputFormat; import com.mongodb.hadoop.MongoOutputFormat; impo...

  • hadoop(番外)——mongodb-hadoop(基础配置)

    简介 mongo-hadoop是用于Hadoop的MongoDB连接器是一个库...它旨在提供更大的灵活性和性能,并使MongoDB中的数据与Hadoop生态系统的其他部分轻松集成。 下载地址:https://github.com/mongodb/mongo-hadoop 跳转→ 特...

  • 通过mongo-hadoop(pymongo_spark)从PySpark保存数据到MongoDB

    PySpark to connect to MongoDB via mongo-hadoop 二、配置步骤 (注意版本作相应调整,spark-2.4.3,hadoop2.7,Scala2.11) 1. # Get the MongoDB Java Driver #PROJECT_HOME 自定义的项目根目录,下面...

  • 在 EMR 中使用 Mongo-Hadoop

    Mongo-Hadoop 是 MongoDB 推出的用于 Hadoop 系列组件连接 MongoDB 的组件。其原理跟我们上一篇文章介绍的 ES-Hadoop 类似。EMR 中已经集成了 Mongo-Hadoop,用户不用做任何部署配置,即可使用 Mongo-Hadoop。下面...

  • MUG-Nantes-Demo-Hadoop:适用于HadoopMongoDB连接器演示

    MongoDB Hadoop演示连接器 幻灯片: : 步骤0-建立 Java cd spark/java mvn clean package assembly:single 第1步-导入数据 清洁(蒙古壳) use marketdata db.stock_prices.drop () 资料来源:cf。 进口 mongo...

  • 矿大京-大数据技术实验课-Hadoop集群下的数据库操作

    在给定的Ubuntu Linux+hadoop3.1.3环境上,分别用hbase、redis、mongodb、hive(redis、mongodb、hive需自行安装,无版本要求)所属的shell命令,建立相应数据结构,并增加本人的学号、姓名、性别、数据库课程成绩,...

  • MongoDB北京2014 - MongoDB和Hadoop 完美大数据方案 - 周思远

  • Mongo-Hadoop

    https://github.com/mongodb/mongo-hadoop/releases   解压到/home/kevin/hadoop/hadoop/share/mongo-hadoop-2.2-1.2.0 (其实是任意,真正分布式的时候要注意这个jar包的问题)   Mapreduce结果输出到MongDB 要...

  • 大数据探索:[归档]实习生项目-使用MongoDB进行大数据探索-此存储库不支持MongoDB产品

    该项目旨在利用MongoDB进行存储和计算时发现,调查和解决大数据集问题。 这个暑期实习项目还展示了如何使用MongoDB的框架和连接器回答有关存储在MongoDB中的大型数据集的问题。 MongoDB本机聚合框架和hadoop都被用来...

  • Hadoop 2.5.1学习笔记5: mongo-hadoop connector的使用范例

    // conf.set("mongo.output.uri","mongodb://localhost:27017/mongo-hadoop-test.appsout"); job.setInputFormatClass(MongoInputFormat.class); job.setOutputFormatClass(MongoOutputFormat.class); // 5 ...

  • Hadoop-mongodb 使用

    一、概述 使用hadoop-mongodb进行hdfs和mongodb之间的数据转换存储 <...org.mongodb.mongo-hadoop</groupId> <artifactId>mongo-hadoop-core</artifactId> <version...

Global site tag (gtag.js) - Google Analytics