- 浏览: 72602 次
kafka + flume + hdfs + zookeeper + spark 测试环境搭建
最近由于项目需要, 搭建了一个类似线上环境的处理流数据的环境
用的是CDH 版本5.9.x
hdfs组成: 2 namenode HA, 6 datanode
kafka: 3 台kafka server
zookeeper: 3台
flume: 1台
spark: 6台 每台32G内存
数据流程是有远端终端向我们数据处理服务器(Gengo)发送, 再由Gengo向kafka还有flume发送同样数据
flume那份数据最后会存储到hdfs上, 万一哪天spark或者kafka挂了, 我们还可以通过离线Job处理hdfs上的数据, 保证数据完整
kafka的数据直接有我们spark streaming的job使用, 每60秒取一批
同时job中的一些配置文件我们也可以通过zookeeper的node监听来动态更新, 主要就是通过往zookeepernode里添加id, Job就会触发事件, 从数据库更新那个id的相关信息
用的是CDH 版本5.9.x
hdfs组成: 2 namenode HA, 6 datanode
kafka: 3 台kafka server
zookeeper: 3台
flume: 1台
spark: 6台 每台32G内存
数据流程是有远端终端向我们数据处理服务器(Gengo)发送, 再由Gengo向kafka还有flume发送同样数据
flume那份数据最后会存储到hdfs上, 万一哪天spark或者kafka挂了, 我们还可以通过离线Job处理hdfs上的数据, 保证数据完整
kafka的数据直接有我们spark streaming的job使用, 每60秒取一批
同时job中的一些配置文件我们也可以通过zookeeper的node监听来动态更新, 主要就是通过往zookeepernode里添加id, Job就会触发事件, 从数据库更新那个id的相关信息
发表评论
-
YARNRunner的运行原理总结
2016-10-25 17:52 1089之前看了那么些源码, 大致对整个Yarn的运行过程有了一个了解 ... -
Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析(下)
2016-10-11 13:53 2365中间隔了国庆, 好不容易才看明白了MRAppMaster如何启 ... -
Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析 (中)
2016-09-27 13:25 1532继续上一篇文章, 那时候AM Allocation已经生成, ... -
Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析 (上)
2016-09-24 16:46 3507参考了一篇文章, 才看懂了Yarnrunner的整个流程: h ... -
Hadoop MapReduce Job执行过程源码跟踪
2016-09-07 15:07 2945前面一片文章写了MR怎么写, 然后添加的主要功能怎么用, 像p ... -
Hadoop的Map端sort, partition, combiner以及Group
2016-09-05 15:15 1461Mapreduce在执行的时候首先会解析成KV键值对传送到Ma ... -
Hadoop 的WordCount
2016-08-30 19:41 579之前花了点时间玩spark, 现在开始学一下hadoop 前 ... -
源码跟踪executor如何写数据到blockmanager, 以及如何从blockmanager读数据
2016-08-10 19:41 1364之前看了Job怎么submit 以 ... -
Spark中Blockmanager相关代码解析
2016-08-04 19:47 1799前一段时间看了如何划分stage以及如何提交Job, 最后把结 ... -
Spark在submitStage后如何通过clustermanager调度执行task到Driver接收计算结果的代码解析
2016-08-01 14:08 1375前文: http://humingminghz.iteye.c ... -
Spark中saveAsTextFile至stage划分和job提交的源代码分析
2016-07-29 14:20 3292之前看了Spark Streaming和Spark SQL, ... -
SparkSQL DF.agg 执行过程解析
2016-07-19 10:21 4057在上一篇文章前, 我一直没看懂为什么下面的代码就能得到max或 ... -
SparkSQL SQL语句解析过程源代码浅析
2016-07-15 19:34 6563前两天一直在忙本职工 ... -
SparkSQL SQL语句解析过程浅析
2016-07-15 19:06 0前两天一直在忙本职工 ... -
SparkStreaming从启动Receiver到收取数据生成RDD的代码浅析
2016-07-08 17:54 2197前面一片文章介绍了SocketTextStream 是如何从b ... -
Sparkstreaming是如何获取数据组成Dstream的源码浅析
2016-07-08 11:23 1422前面一篇文章介绍了SparkStreaming是如何不停的循环 ... -
SparkSQL 使用SQLContext读取csv文件 分析数据 (含部分数据)
2016-07-06 11:24 10095前两天开始研究SparkSQL, 其主要分为HiveConte ... -
SparkStreaming是如何完成不停的循环处理的代码浅析
2016-07-02 12:26 4585一直很好奇Sparkstreaming的ssc.start是怎 ... -
SparkStreaming 对Window的reduce的方法解析
2016-06-30 11:57 4671在sparkstreaming中对窗口 ... -
Sparkstreaming reduceByKeyAndWindow(_+_, _-_, Duration, Duration) 的源码/原理解析
2016-06-29 19:50 8710最近在玩spark streaming, 感觉到了他的强大。 ...
相关推荐
基于 Zookeeper 搭建 Hadoop 高可用集群 二、Hive 简介及核心概念 Linux 环境下 Hive 的安装部署 CLI 和 Beeline 命令行的基本使用 常用 DDL 操作 分区表和分桶表 视图和索引 常用 DML 操作 数据查询详解 三、Spark ...
hadoop,zookeeper,hbase,hive,spark,kafka,flink,clickhouse,数据仓库,等等
运行环境:centos 6.x、java、kafka、zookeeper、Flume、Hbase、HDFS、YARN、Spark、MySQl。 安装教程 spark_student是IDEA项目,直接使用IDEA打开。(需要自行配置运行环境) 在IDEA下运行,配置好maven。(国内...
日志分析器-分析大数据组件的客户日志,例如HDFS,Hive,HBase,Yarn,MapReduce,Storm,Spark,Spark 2,Knox,Ambari Metrics,Nifi,Accumulo,Kafka,Flume,Oozie,Falcon,Atlas和Zookeeper。 内部架构 分析...
介绍 基于Spark的高校数据分析系统 。同时实现了Spark-core(被注释了);Spark-ML,Spark-streaming。...运行环境:centos 6.x、java、kafka、zookeeper、Flume、Hbase、HDFS、YARN、Spark、MySQl。
包括Hadoop、Hive、Spark、Storm、Flink、HBase、Kafka、Zookeeper、Flume、Sqoop等技术的学习 Hadoop 分布式文件存储系统 —— HDFS 分布式计算框架 —— MapReduce 集群资源管理器 —— YARN Hadoop 单机伪集群...
全书共12章,大致分为3个部分,第1部分(第1~7章)讲解Hadoop的原生态组件,包括Hadoop、ZooKeeper、HBase、Hive环境搭建与安装,以及介绍MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本环境下实战操作...
课程列表: 01.Hadoop简介 02.MapReduce 03.Hadoop YARN 04.MapReduce Eclipse开发 05.Hadoop入门数据分析实战 06.HDFS 07.HDFS Shell命令 08.HDFS文件接口 09.MapReduce序列化 ...32.Spark入门之Scala 。。。
课程列表: 01.Hadoop简介 02.MapReduce 03.Hadoop YARN 04.MapReduce Eclipse开发 05.Hadoop入门数据分析实战 06.HDFS 07.HDFS Shell命令 08.HDFS文件接口 09.MapReduce序列化 ...32.Spark入门之Scala 。。。
2.1_HDFS概述及应用场景-HDFS系统架构 2.2_关键特性介绍 第三章 MapReduce分布式离线批处理和Yarn资源协调 3.1_MapReduce和Yarn基本介绍-MapReduce和Yarn功能与架构 3.2_Yarn的资源管理和任务调度-增强特性 第四...
目录:网盘文件,永久连接 大数据HCIA day1_1bigdatatrends.mp4 大数据HCIA day1_2hdfs.mp4 ...大数据HCIA day4_kafka&streaming&flume.mp4 大数据HCIA day5_1loader&spark.mp4 大数据HCIA day5_2spark&flink.mp4
课程列表: 01.Hadoop简介 02.MapReduce 03.Hadoop YARN 04.MapReduce Eclipse开发 05.Hadoop入门数据分析实战 06.HDFS 07.HDFS Shell命令 08.HDFS文件接口 09.MapReduce序列化 ...32.Spark入门之Scala 。。。
课程列表: 01.Hadoop简介 02.MapReduce 03.Hadoop YARN 04.MapReduce Eclipse开发 05.Hadoop入门数据分析实战 06.HDFS 07.HDFS Shell命令 08.HDFS文件接口 09.MapReduce序列化 ...32.Spark入门之Scala 。。。
Hadoop/HDFS/Zookeeper/HBase/MapReduce/Yarn/Hive/Flink/Flume/Kafka/Loader/ElasticSearch/R edis) 数据预处理 特征选择与降维 有监督学习 无监督学习 模型评估与优化 数据挖掘综合应用 Spark MLlib 数据挖掘 ...
目录:网盘文件永久链接 1.1.1 大数据的定义及其应用领域 1.2.1 大数据时代的机遇与挑战...12.1.1 ZooKeeper集群分布式协调服务 13.1.1 FusionInsight HD 解决方案介绍 (1) 13.2.1 FusionInsight HD 解决方案介绍 (2
最新Hadoop生态圈开发学习资料 Linux、Hadoop、HDFS、Zookeeper、Hive、Flume、Kafka、等等
包括Hdfs,MapReduce,Yarn,Hive,Hbase,Zookeeper,Flume,Sqoop,Kafka,Scala,Spark
HCIA-Big_Data_V2.0_培训教材,在原版基础上已添加完整书签。 内容包括HDFS、MapReduce和Yarn、Spark、HBase、Hive、Streaming、Loader、Flume、Kafka、Zookeeper等
第二阶段:这一阶段会学习FLume、Kafka、Spark Streaming、Flink/Storm、Zookeeper、HBase等计算框架的开发技术,以及大数据体系内的数据采集和数据仓库理论思想和技术实现。通过项目实践,你能快速掌握这些技术,...
从项目架构的搭建,到数据采集模块的设计、数仓架构的设计、实战需求实现、即席查询的实现,我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍,Apache原生框架介绍中涉及到的技术框架包括Flume...