`

Flume 简介

 
阅读更多

Flume

是分布式、可靠、可用性好,用于收集、聚合、移动大量数据。

基于流计算的简单灵活框架。

用于在线分析。

 

优点:

1. 可以和任意集中式存储进行集成

2. 输入数据的速度大于存储速度,flume会进行缓冲

3  flume提供上下文路由(数据流路线)

4. flume中的事务基于channel,提供了两个事务模型(sender、receiver)确保消息可靠发送。

5. 可靠 容错 可伸缩 可管理 可定制化

 

Hadoop Put命令的缺点:

1. Put一次只能传输一个文件,当文件增大速度大于传输速度,传输就不及时。

2. Put只能传输已写完的数据,不能传输持续写入过程中的数据。

 

HDFS的缺点

HDFS写入操作完成之前,文件大小是0,所以文件只能一次性整个写入。如果写入过程被中断,已写入的数据会丢失。

 

Flume agent

---------------------------------------------

1. 描述

在数据生成器运行的节点上运行单独的flume agent来收集数据,推送到hdfs。

2.  Flume Event

事件是flume的传输单元。主要是byte[],可以含有一些header信息。在source和destination之间。

3. Flume Agent

每个agent是一个独立的java进程,从客户端(或agent)接收数据,然后转发到下一个destination(sink | agent)。

agent包含三个组件:

a. source [源头]

从事件生成器接收数据,已event事件的形式传给一个或多个channel。

b. channel [通道]

从source接收Flume agent,作为临时存放地,缓存到buffer中,直到sink将其消费掉。是source和sink之间的桥梁。

channel是事务的,可以和多个source或sink协同。

c. sink [沉槽]

存放数据到hdfs,从channel中消费event,并分发给destination。sink的destination也可以是另一个agent或hdfs。

注意:一个Flume的agent,可以有多个source、channel、sink。

 

 

 

 

 

分享到:
评论

相关推荐

    Flume简介及基本使用.md

    Flume简介及基本使用,入门篇

    04、日志收集系统Flume-实时计算1-4:flume简介.pptx

    04、日志收集系统Flume-实时计算1-4:flume简介

    hadoop2.0flume简介及安装

    Flume是日志抽取工具,可以将数据通过flume抽取到本地文件系统中、数据库中、HDFS中,还可以抽取到远端的服务区当中,比如华为北京分公司要将数据发送到华为的总部,做分析处理,所以就需要发送到远端服务器上,这个...

    flume 简介安装使用案例(将log4j数据写到hdfs中)

    NULL 博文链接:https://chengjianxiaoxue.iteye.com/blog/2169989

    大数据框架Sqoop+Flume+Oozie+Hue视频教程

    《大数据框架Sqoop+Flume+Oozie+Hue视频教程》Sqoop+Flume+Oozie+Hue整合大数据视频教程 经典之作 值得珍藏的大数据视频教程。

    IT十八掌_Flume阶段学习笔记(知识点总结)

    IT十八掌第三期配套课堂笔记! 1、安装和执行机制的分析 2、操作引入 3、常见工具对比 4、flume起源 5、flume概念 6、flume简介和实际应用操作 7、flume的几种配置 8、知识点的总结

    入门简介教程-大数据组件flume

    flume入门介绍,简单介绍flume的背景和应用场景,flume的实现原理以及案例分享

    大数据培训视频.zip

    目录 1.1_大数据时代 1.2_大数据的应用领域-大数据解决方案 2.1_HDFS概述及应用场景-HDFS系统架构 2.2_关键特性介绍 ...10.1_Flume简介及架构-Flume应用举例 11.1_Kafka简介-Kafka架构与功能 .............

    Flume+kafka+Storm整合

    示例简介: 以下为三个组建整合,这里只做操作也演示结果,原理性方面大家多学习基础。 流程顺序是flume获取telnet数据,将接收到的数据发送至kafak,kafka作为Storm的spout,Storm进行有向无环分析数据。

    华为HCIA-Big Data V2.0 LVC公开课培训.rar

    10.1_Flume简介及架构-Flume应用举例 第十一章 Kafka分布式消息订阅系统 11.1_Kafka简介-Kafka架构与功能 11.2_Kafka架构与功能-Kafka关键流程 第十二章 ZooKeeper集群分布式协调服务 12.1_ZooKeeper简介-与组件...

    Flume安装和简单使用

    Flume安装和简单使用Flume简介Flume安装Flume框架示例 Flume简介 来自官网 Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log ...

    Flume-ng搭建及sink配置

    Flume­ng简介 Apache Flume是从不同数据源收集、聚合、传输大量数据、日志到数据中心的分布式系统,具有可靠、可伸缩、可定制、高可用、高性能等明显优点。其主要特点有:声明式配置,可动态更新;提供上下文路由,...

    百度云盘 pdf《大数据架构和算法实现之路:电商系统的技术实战》百度云盘-带标签目录

    1.5.3 Hadoop 简介………………· 14 1.6 案例实践·……...... .… ··· ·· ·········… 17 1.6.l 实验环境设置…………….... 17 1.6.2 中文分词 ……………….. 18 1.6.3 使用 R进行朴素贝叶斯...

    2017最新大数据架构师精英课程

    138_flume简介 139_nc收集日志# [3 O7 K& n; f; y( f 140_hdfs sink收集日志到hdfs b9 o, k, j( G4 l! {* u: | 141_使用spooldir实现批量收集/ s8 F* }% o- n6 g& a9 w 142_使用exec结合tail命令实现实时收集 143_...

    Flume零基础应用实战企业全场景解决方案视频教程

    课程简介 从零开始讲解大数据业务及数据采集和迁移需求,以案例驱动的方式讲解基于Flume构建高容错高可靠的分布式数据采集平台。 课程亮点 1,知识体系完备,从小白到大神各阶段读者均能学有所获。 2,生动形象,化...

    Flume部署和使用

    简介 Flume是一个分布式,可靠的的框架,它能从许多不同的数据源高效地收集、聚合和移动大量日志数据到一个集中的目的进行存储。Flume OG主要是0.9及以前的版本,Flume NG主要是1.X的版本。类似的框架还有Logstash。...

    Flume监控之Ganglia

    Ganglia简介 Ganglia是UC Berkeley发起的一个开源集群监视可视化工具,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率, I/O负载...

    ingestion, Flume Ingestion,一个阿帕奇水槽分布.zip

    ingestion, Flume Ingestion,一个阿帕奇水槽分布 Stratio电子邮件内容介绍Stratio正在获取组件有关Stratio内容的详细信息编译&软件包常见问题解答简介Stratio Ingestion作为Apache水槽( 1.6 )的fork 开始,

    分布式Snapshot和Flink Checkpointing简介.docx

    分布式Snapshot和Flink Checkpointing简介.docx

Global site tag (gtag.js) - Google Analytics