Flume
是分布式、可靠、可用性好,用于收集、聚合、移动大量数据。
基于流计算的简单灵活框架。
用于在线分析。
优点:
1. 可以和任意集中式存储进行集成
2. 输入数据的速度大于存储速度,flume会进行缓冲
3 flume提供上下文路由(数据流路线)
4. flume中的事务基于channel,提供了两个事务模型(sender、receiver)确保消息可靠发送。
5. 可靠 容错 可伸缩 可管理 可定制化
Hadoop Put命令的缺点:
1. Put一次只能传输一个文件,当文件增大速度大于传输速度,传输就不及时。
2. Put只能传输已写完的数据,不能传输持续写入过程中的数据。
HDFS的缺点
HDFS写入操作完成之前,文件大小是0,所以文件只能一次性整个写入。如果写入过程被中断,已写入的数据会丢失。
Flume agent
---------------------------------------------
1. 描述
在数据生成器运行的节点上运行单独的flume agent来收集数据,推送到hdfs。
2. Flume Event
事件是flume的传输单元。主要是byte[],可以含有一些header信息。在source和destination之间。
3. Flume Agent
每个agent是一个独立的java进程,从客户端(或agent)接收数据,然后转发到下一个destination(sink | agent)。
agent包含三个组件:
a. source [源头]
从事件生成器接收数据,已event事件的形式传给一个或多个channel。
b. channel [通道]
从source接收Flume agent,作为临时存放地,缓存到buffer中,直到sink将其消费掉。是source和sink之间的桥梁。
channel是事务的,可以和多个source或sink协同。
c. sink [沉槽]
存放数据到hdfs,从channel中消费event,并分发给destination。sink的destination也可以是另一个agent或hdfs。
注意:一个Flume的agent,可以有多个source、channel、sink。
相关推荐
Flume简介及基本使用,入门篇
04、日志收集系统Flume-实时计算1-4:flume简介
Flume是日志抽取工具,可以将数据通过flume抽取到本地文件系统中、数据库中、HDFS中,还可以抽取到远端的服务区当中,比如华为北京分公司要将数据发送到华为的总部,做分析处理,所以就需要发送到远端服务器上,这个...
NULL 博文链接:https://chengjianxiaoxue.iteye.com/blog/2169989
《大数据框架Sqoop+Flume+Oozie+Hue视频教程》Sqoop+Flume+Oozie+Hue整合大数据视频教程 经典之作 值得珍藏的大数据视频教程。
IT十八掌第三期配套课堂笔记! 1、安装和执行机制的分析 2、操作引入 3、常见工具对比 4、flume起源 5、flume概念 6、flume简介和实际应用操作 7、flume的几种配置 8、知识点的总结
flume入门介绍,简单介绍flume的背景和应用场景,flume的实现原理以及案例分享
目录 1.1_大数据时代 1.2_大数据的应用领域-大数据解决方案 2.1_HDFS概述及应用场景-HDFS系统架构 2.2_关键特性介绍 ...10.1_Flume简介及架构-Flume应用举例 11.1_Kafka简介-Kafka架构与功能 .............
示例简介: 以下为三个组建整合,这里只做操作也演示结果,原理性方面大家多学习基础。 流程顺序是flume获取telnet数据,将接收到的数据发送至kafak,kafka作为Storm的spout,Storm进行有向无环分析数据。
10.1_Flume简介及架构-Flume应用举例 第十一章 Kafka分布式消息订阅系统 11.1_Kafka简介-Kafka架构与功能 11.2_Kafka架构与功能-Kafka关键流程 第十二章 ZooKeeper集群分布式协调服务 12.1_ZooKeeper简介-与组件...
Flume安装和简单使用Flume简介Flume安装Flume框架示例 Flume简介 来自官网 Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log ...
Flumeng简介 Apache Flume是从不同数据源收集、聚合、传输大量数据、日志到数据中心的分布式系统,具有可靠、可伸缩、可定制、高可用、高性能等明显优点。其主要特点有:声明式配置,可动态更新;提供上下文路由,...
1.5.3 Hadoop 简介………………· 14 1.6 案例实践·……...... .… ··· ·· ·········… 17 1.6.l 实验环境设置…………….... 17 1.6.2 中文分词 ……………….. 18 1.6.3 使用 R进行朴素贝叶斯...
138_flume简介 139_nc收集日志# [3 O7 K& n; f; y( f 140_hdfs sink收集日志到hdfs b9 o, k, j( G4 l! {* u: | 141_使用spooldir实现批量收集/ s8 F* }% o- n6 g& a9 w 142_使用exec结合tail命令实现实时收集 143_...
课程简介 从零开始讲解大数据业务及数据采集和迁移需求,以案例驱动的方式讲解基于Flume构建高容错高可靠的分布式数据采集平台。 课程亮点 1,知识体系完备,从小白到大神各阶段读者均能学有所获。 2,生动形象,化...
简介 Flume是一个分布式,可靠的的框架,它能从许多不同的数据源高效地收集、聚合和移动大量日志数据到一个集中的目的进行存储。Flume OG主要是0.9及以前的版本,Flume NG主要是1.X的版本。类似的框架还有Logstash。...
Ganglia简介 Ganglia是UC Berkeley发起的一个开源集群监视可视化工具,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率, I/O负载...
ingestion, Flume Ingestion,一个阿帕奇水槽分布 Stratio电子邮件内容介绍Stratio正在获取组件有关Stratio内容的详细信息编译&软件包常见问题解答简介Stratio Ingestion作为Apache水槽( 1.6 )的fork 开始,
分布式Snapshot和Flink Checkpointing简介.docx