kafka + flume + hdfs + zookeeper + spark 测试环境搭建 -

humingminghz

浏览: 72602 次

最近访客更多访客>>

gaoming1990

CharlesLibby

wfqwang82

liliang_68

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

kafka + flume + hdfs + zookeeper + spark 测试环境搭建

博客分类：

Spark
Hadoop
kafka

Hadoop spark kafka zookeeper flume

最近由于项目需要，搭建了一个类似线上环境的处理流数据的环境

用的是CDH 版本5.9.x

hdfs组成： 2 namenode HA, 6 datanode
kafka： 3 台kafka server
zookeeper： 3台
flume： 1台
spark： 6台每台32G内存

数据流程是有远端终端向我们数据处理服务器（Gengo）发送，再由Gengo向kafka还有flume发送同样数据

flume那份数据最后会存储到hdfs上，万一哪天spark或者kafka挂了，我们还可以通过离线Job处理hdfs上的数据，保证数据完整

kafka的数据直接有我们spark streaming的job使用，每60秒取一批

同时job中的一些配置文件我们也可以通过zookeeper的node监听来动态更新，主要就是通过往zookeepernode里添加id， Job就会触发事件，从数据库更新那个id的相关信息

分享到：

YARNRunner的运行原理总结

2017-07-20 11:28
浏览 1051
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop+Hive+Spark+Kafka+Zookeeper+Flume+Sqoop+Azkaban+Scala: 基于 Zookeeper 搭建 Hadoop 高可用集群二、Hive 简介及核心概念 Linux 环境下 Hive 的安装部署 CLI 和 Beeline 命令行的基本使用常用 DDL 操作分区表和分桶表视图和索引常用 DML 操作数据查询详解三、Spark ...

大数据基础面试题hadoop,zookeeper,hbase,hive,spark,kafka,flink,clickhouse: hadoop,zookeeper,hbase,hive,spark,kafka,flink,clickhouse,数据仓库,等等

基于Spark的高校大学生行为数据收集及成绩分析预测系统源码+汇报PPT: 运行环境：centos 6.x、java、kafka、zookeeper、Flume、Hbase、HDFS、YARN、Spark、MySQl。安装教程 spark_student是IDEA项目，直接使用IDEA打开。（需要自行配置运行环境）在IDEA下运行，配置好maven。（国内...

LogAnalyzer:分析大数据组件的客户日志，例如HDFS，Hive，HBase，Yarn，MapReduce，Storm，Spark，Spark 2，Knox，Ambari Metrics，Nifi，Accumulo，Kafka，Flume，Oozie，Falcon，Atlas和Zookeeper: 日志分析器-分析大数据组件的客户日志，例如HDFS，Hive，HBase，Yarn，MapReduce，Storm，Spark，Spark 2，Knox，Ambari Metrics，Nifi，Accumulo，Kafka，Flume，Oozie，Falcon，Atlas和Zookeeper。内部架构分析...

基于Spark的高校数据分析系统: 介绍基于Spark的高校数据分析系统。同时实现了Spark-core（被注释了）;Spark-ML,Spark-streaming。...运行环境：centos 6.x、java、kafka、zookeeper、Flume、Hbase、HDFS、YARN、Spark、MySQl。

大数据学习路线大数据技术栈思维导图大数据常用软件安装指南: 包括Hadoop、Hive、Spark、Storm、Flink、HBase、Kafka、Zookeeper、Flume、Sqoop等技术的学习 Hadoop 分布式文件存储系统 —— HDFS 分布式计算框架 —— MapReduce 集群资源管理器 —— YARN Hadoop 单机伪集群...

Hadoop＋Spark生态系统操作与实战指南.epub: 　全书共12章，大致分为3个部分，第1部分（第1~7章）讲解Hadoop的原生态组件，包括Hadoop、ZooKeeper、HBase、Hive环境搭建与安装，以及介绍MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本环境下实战操作...

大数据与云计算教程课件优质大数据课程 30.Kafka开发（共34页）.pptx: 课程列表： 01.Hadoop简介 02.MapReduce 03.Hadoop YARN 04.MapReduce Eclipse开发 05.Hadoop入门数据分析实战 06.HDFS 07.HDFS Shell命令 08.HDFS文件接口 09.MapReduce序列化 ...32.Spark入门之Scala 。。。

大数据与云计算教程课件优质大数据课程 08.HDFS文件接口（共41页）.pptx: 课程列表： 01.Hadoop简介 02.MapReduce 03.Hadoop YARN 04.MapReduce Eclipse开发 05.Hadoop入门数据分析实战 06.HDFS 07.HDFS Shell命令 08.HDFS文件接口 09.MapReduce序列化 ...32.Spark入门之Scala 。。。

华为HCIA-Big Data V2.0 LVC公开课培训.rar: 2.1_HDFS概述及应用场景-HDFS系统架构 2.2_关键特性介绍第三章 MapReduce分布式离线批处理和Yarn资源协调 3.1_MapReduce和Yarn基本介绍-MapReduce和Yarn功能与架构 3.2_Yarn的资源管理和任务调度-增强特性第四...

华为HCIA-Big Data培训视频教程【共10集】.rar: 目录：网盘文件，永久连接大数据HCIA day1_1bigdatatrends.mp4 大数据HCIA day1_2hdfs.mp4 ...大数据HCIA day4_kafka&streaming&flume.mp4 大数据HCIA day5_1loader&spark.mp4 大数据HCIA day5_2spark&flink.mp4

大数据与云计算教程课件优质大数据课程 31.Strom（共14页）.pptx: 课程列表： 01.Hadoop简介 02.MapReduce 03.Hadoop YARN 04.MapReduce Eclipse开发 05.Hadoop入门数据分析实战 06.HDFS 07.HDFS Shell命令 08.HDFS文件接口 09.MapReduce序列化 ...32.Spark入门之Scala 。。。

大数据与云计算教程课件优质大数据课程 34.SparkSQL（共15页）.pptx: 课程列表： 01.Hadoop简介 02.MapReduce 03.Hadoop YARN 04.MapReduce Eclipse开发 05.Hadoop入门数据分析实战 06.HDFS 07.HDFS Shell命令 08.HDFS文件接口 09.MapReduce序列化 ...32.Spark入门之Scala 。。。

HCIE-Big Data-Data Mining V2.0 考试大纲.pdf: Hadoop/HDFS/Zookeeper/HBase/MapReduce/Yarn/Hive/Flink/Flume/Kafka/Loader/ElasticSearch/R edis）数据预处理特征选择与降维有监督学习无监督学习模型评估与优化数据挖掘综合应用 Spark MLlib 数据挖掘 ...

华为HCIA-Big Data V2.0 LVC公开课培训视频教程【共25集】.rar: 目录：网盘文件永久链接 1.1.1 大数据的定义及其应用领域 1.2.1 大数据时代的机遇与挑战...12.1.1 ZooKeeper集群分布式协调服务 13.1.1 FusionInsight HD 解决方案介绍 (1) 13.2.1 FusionInsight HD 解决方案介绍 (2

最新Hadoop生态圈开发学习资料——尚硅谷: 最新Hadoop生态圈开发学习资料 Linux、Hadoop、HDFS、Zookeeper、Hive、Flume、Kafka、等等

传智播客大数据就业班完整版: 包括Hdfs,MapReduce,Yarn,Hive,Hbase,Zookeeper,Flume,Sqoop,Kafka，Scala,Spark

HCIA-Big_Data_V2.0_培训教材（完整书签版）.pdf: HCIA-Big_Data_V2.0_培训教材，在原版基础上已添加完整书签。内容包括HDFS、MapReduce和Yarn、Spark、HBase、Hive、Streaming、Loader、Flume、Kafka、Zookeeper等

八斗大虚据第九期完整版.docx: 第二阶段：这一阶段会学习FLume、Kafka、Spark Streaming、Flink/Storm、Zookeeper、HBase等计算框架的开发技术，以及大数据体系内的数据采集和数据仓库理论思想和技术实现。通过项目实践，你能快速掌握这些技术，...

大数据—电商数仓项目: 从项目架构的搭建，到数据采集模块的设计、数仓架构的设计、实战需求实现、即席查询的实现，我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍，Apache原生框架介绍中涉及到的技术框架包括Flume...

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

kafka + flume + hdfs + zookeeper + spark 测试环境搭建

评论

发表评论

相关推荐

YARNRunner的运行原理总结

Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析(下)

Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析 (中)

Hadoop中Yarnrunner里面submit Job以及AM生成 至Job处理过程源码解析 (上)

Hadoop MapReduce Job执行过程源码跟踪

Hadoop的Map端sort， partition， combiner以及Group

Hadoop 的WordCount

源码跟踪executor如何写数据到blockmanager， 以及如何从blockmanager读数据

Spark中Blockmanager相关代码解析

Spark在submitStage后如何通过clustermanager调度执行task到Driver接收计算结果的代码解析

Spark中saveAsTextFile至stage划分和job提交的源代码分析

SparkSQL DF.agg 执行过程解析

SparkSQL SQL语句解析过程源代码浅析

SparkSQL SQL语句解析过程浅析

SparkStreaming从启动Receiver到收取数据生成RDD的代码浅析

Sparkstreaming是如何获取数据组成Dstream的源码浅析

SparkSQL 使用SQLContext读取csv文件 分析数据 （含部分数据）

SparkStreaming是如何完成不停的循环处理的代码浅析

SparkStreaming 对Window的reduce的方法解析

Sparkstreaming reduceByKeyAndWindow(_+_, _-_, Duration, Duration) 的源码/原理解析

最近访客更多访客>>

Hadoop中Yarnrunner里面submit Job以及AM生成至Job处理过程源码解析(下)

Hadoop中Yarnrunner里面submit Job以及AM生成至Job处理过程源码解析 (中)

Hadoop中Yarnrunner里面submit Job以及AM生成至Job处理过程源码解析 (上)

源码跟踪executor如何写数据到blockmanager，以及如何从blockmanager读数据

SparkSQL 使用SQLContext读取csv文件分析数据（含部分数据）