`
jamie.wang
  • 浏览: 338402 次
  • 性别: Icon_minigender_1
  • 来自: 成都
社区版块
存档分类
最新评论

Flume

阅读更多

Flume是Apache的开源项目,是hadoop的周边组件之一。Flume-ng则是Flume改进后的新版本。

严格的讲Flume-ng是一个日志搜集、处理、存储的系统。

架构

  • source是搜集日志的前端,接受不同的日志数据格式;
  • channel 是日志的暂存地,接收 source 的输出;
  • sink是日志的输出端,消费channel里的日志输出到不同的存储设备;
  • event:flume传输的数据单元成为一个event;

特点

1. 灵活扩展性

搜集日志的格式可以多种多样,支持:Avro(一个数据序列化系统,可以将多种格式序列化为二进制数据并提供RPC实现快捷传输),syslog,JMS,Thrift,HTTP POST等,读取日志可以是:轮询目录,执行某个命令(如:tailf),也很方便扩展;

日志的输出端可以支持多种设备,可以是:文件系统、数据库、hadoop等;

Flume可以相互串联形成多层处理,传输,多路传输等,组合方式很灵活;

2. 可靠性

Flume 使用事务性的方式保证传送Event整个过程的可靠性。

source搜集的日志会暂存到channel,channel可以是文件存储,待sink消费完后(确保输出到外部设备后)删除。

3. 可恢复性

Flume的events由于暂存在channel中,channel可以是文件存储,因此可以恢复。

4. 跨平台

Flume是Java语言的开源项目,天生具有跨平台的特性。

分享到:
评论

相关推荐

    Flume构建高可用、可扩展的海量日志采集系统

    Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可...

    Flume1.6.0入门:安装、部署、及flume的案例

    Flume1.6.0入门:安装、部署、及flume的案例

    flume自学文档.pdf

    Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可...

    Flume 抽取MYSQL Oracle数据 JSON格式 推送Kafka

    Flume二次开发,支持抽取MYSQL Oracle数据库数据 以JSON格式推送至Kafka。 demo: sql_json.sources.sql_source.type = com.hbn.rdb.source.SQLSource sql_json.sources.sql_source.connectionurl = jdbc:oracle:...

    数据采集之Flume.xmind

    Apache Flume 是一个分布式、高可靠、高可用的用来收集、聚合、转移不同来源的大量日志数据到中央数据仓库的工具 Apache Flume是Apache软件基金会(ASF)的顶级项目 Event是Flume定义的一个数据流传输的最小单元。...

    让你快速认识flume及安装和使用flume1 5传输数据 日志 到hadoop2 2 文档

    让你快速认识flume及安装和使用flume1 5传输数据 日志 到hadoop2 2 中文文档 认识 flume 1 flume 是什么 这里简单介绍一下 它是 Cloudera 的一个产品 2 flume 是干什么的 收集日志的 3 flume 如何搜集日志 我们把...

    flume-ng-elasticsearch6-sink.zip

    flume1.9采集数据入存入elasticsearch6.2.4,flume1.9本身只支持低版本的elasticsearch,基于apache-flume-1.9.0-src的flume-ng-sinks/flume-ng-elasticsearch-sink源码修改,支持es6.2.4,打的包,直接替换flume/...

    大数据笔记,包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK......

    大数据笔记,包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK...... 大数据笔记,包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK...... 大数据笔记,包含Hadoop、Spark、Flink、Hive、Kafka、Flume、ZK.......

    尚硅谷大数据技术之Flume

    尚硅谷大数据技术之Flume

    最全Flume视频教程,大数据入门必学

    Flume是的一个分布式、高可用、高可靠的海量日志采集、聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时提供了对数据进行简单处理并写到各种数据接收方的能力。 2、适应人群 有一定的...

    Flume-ng资料合集

    Flume NG是Cloudera提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG,进行了架构重构,...

    flume-ng安装

    flume-ng安装

    实时大数据采集框架Flume详解(视频+课件+代码+工具)

    01_Flume的介绍及其架构组成 02_Flume的安装部署 03_Flume的测试运行 04_Flume中配置使用file channel及HDFS sink 05_Flume中配置HDFS文件生成大小及时间分区 06_Flume中配置Spooling Dir的使用 07_Flume中...

    47_Flume、Logstash、Filebeat调研报告

    基于flume+kafka+实时计算引擎(storm,spark,flink)的实时计算框架目前是比较火的一个分支,在实时数据采集组件中flume扮演着极为重要角色,logtash是ELK的重要组件部分,filebeat也是一个实时采集工具;

    .Using.Flume.Flexible.Scalable.and.Reliable.Data.Streaming

    Title: Using Flume: Flexible, Scalable, and Reliable Data Streaming Author: Hari Shreedharan Length: 238 pages Edition: 1 Language: English Publisher: O'Reilly Media Publication Date: 2014-10-02 ISBN-...

    apache-flume-1.8.0

    flume官网下载太慢,请从这里下载,次文件是官方网站的1.8版本,也就是支持jdk1.8的,不支持jdk1.7,如果要支持jdk1.7的,请下载我的资源里面也有,flume1.7,

    flume-ng-1.6.0-cdh5.13.2

    CDH版本的flume Flume是Cloudera提供的一个高可用的,高可靠...当前Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构,与Flume-og有很大不同,使用时请注意区分。

    Using.Flume.Flexible.Scalable.and.Reliable.Data.Streaming.pdf

    Using Flume shows operations engineers how to configure, deploy, and monitor a Flume cluster, and teaches developers how to write Flume plugins and custom components for their specific use-cases....

    springboot_log4j2_flume

    Log4j直接发送数据到Flume + Kafka (方式一) 通过flume收集系统日记, 收集的方式通常采用以下. 系统logs直接发送给flume系统, 本文主要记录种方式进行说明. 文章链接,请看:...

    Flume-ng在windows环境搭建并测试+log4j日志通过Flume输出到HDFS.docx

    Flume-ng在windows环境搭建并测试+log4j日志通过Flume输出到HDFS 11111

Global site tag (gtag.js) - Google Analytics