`

Flume数据收集

 
阅读更多

 

 

 

 

 

1、创建flume监听的目录,如果不嫌创建,启动flume时会报错

 

2、配置flume

sources:目录

channels:内存

skin:hdfs

#定义agent名, source、channel、sink的名称
a4.sources = s1
a4.channels = c1
a4.sinks = s1

#具体定义source
a4.sources.s1.type = spooldir
a4.sources.s1.spoolDir = /root/logs

#具体定义channel
a4.channels.c1.type = memory
a4.channels.c1.capacity = 10000
a4.channels.c1.transactionCapacity = 100

#定义拦截器,为消息添加时间戳
a4.sources.s1.interceptors = i1
a4.sources.s1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Builder

#具体定义sink
a4.sinks.s1.type = hdfs
a4.sinks.s1.hdfs.path = hdfs://ns1/flume/%Y%m%d
a4.sinks.s1.hdfs.filePrefix = events-
a4.sinks.s1.hdfs.fileType = DataStream
#不按照条数生成文件
a4.sinks.s1.hdfs.rollCount = 0
#HDFS上的文件达到128M时生成一个文件
a4.sinks.s1.hdfs.rollSize = 134217728
#HDFS上的文件达到60秒生成一个文件
a4.sinks.s1.hdfs.rollInterval = 60

#组装source、channel、sink
a4.sources.s1.channels = c1
a4.sinks.s1.channel = c1

 

3、

copy hadoop-common-x.x.x.jar、commons-configuration-x.x.jar、hadoop-auth-x.x.x.jar、hadoop-hdfs-x.x.x.jar到flume/lib下,flume把数据写如到hdfs时需要使用hadoop API

copy core-site.xml、hdfs-site.xml到flume/conf,flume需要知道hadoop的具体配置

 

4、启动flume,配置文件名称为a4.conf

bin/flume-ng agent -n a4 -c conf -f conf/a4.conf -Dflume.root.logger=INFO,console

 

 

此时只有文件被放入/root/logs就会被flume收集到,上传到hdfs

 

 

 

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    让你快速认识flume及安装和使用flume1 5传输数据 日志 到hadoop2 2 文档

    让你快速认识flume及安装和使用flume1 5传输数据 日志 到hadoop2 2 中文文档 认识 flume 1 flume 是什么 这里简单介绍一下 它是 Cloudera 的一个产品 2 flume 是干什么的 收集日志的 3 flume 如何搜集日志 我们把...

    flume包,用于数据的采集

     Source: 数据收集组件。(source从Client收集数据,传递给Channel)  Channel: 中转Event的一个临时存储,保存由Source组件传递过来的Event。(Channel连接 sources 和 sinks ,这个有点像一个队列。)  Sink...

    数据采集之Flume.xmind

    Apache Flume 是一个分布式、高可靠、高可用的用来收集、聚合、转移不同来源的大量日志数据到中央数据仓库的工具 Apache Flume是Apache软件基金会(ASF)的顶级项目 Event是Flume定义的一个数据流传输的最小单元。...

    2 分布式数据收集:Flume 原理与应用

    2 分布式数据收集:Flume 原理与应用 2 分布式数据收集:Flume 原理与应用

    06模块-协同工作:Hadoop数据导入导出 :Flume收集数据-安装讲课.pdf

    Hadoop数据导入导出 :Flume收集数据-安装讲课

    flume自学文档.pdf

    Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可...

    flume日志收集与Mapreduce书籍

    其中上篇介绍了HDFS以及流式数据/日志的问题,同时还谈到了Flume是如何解决这些问题的。本书展示了Flume的架构,包括将数据移动到数据库中以及从数据库中获取数据、NoSQL数据存储和性能调优。

    Flume构建高可用、可扩展的海量日志采集系统

    Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可...

    flume-ng-1.6.0-cdh5.13.2

    Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可...

    Flume-ng资料合集

    Flume NG是Cloudera提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG,进行了架构重构,...

    最全Flume视频教程,大数据入门必学

    系统的学习Flume,掌握最先进的数据收集技术。 l Flume n 快速入门 n 核心详解 n 企业应用 n 自定义Flume组件 n 监控 4、主讲内容 章节一:Flume概述 章节二:Flume架构 章节三:Flume安装 章节四:入门使用案例 ...

    Flume核心思想与解密

    Apache flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统,用于有效地收集、聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储(如文本、HDFS、Hbase等)。  其使用不仅仅限于日志...

    flume-ng-1.6.0-cdh5.14.2.rar

    flume-ng-1.6.0-cdh5.14.2是常见flume分布式数据收集框架的压缩包

    基于Flume的MySQL数据自动收集系统.pdf

    基于Flume的MySQL数据自动收集系统.pdf

    springboot_log4j2_flume

    Log4j直接发送数据到Flume + Kafka (方式一) 通过flume收集系统日记, 收集的方式通常采用以下. 系统logs直接发送给flume系统, 本文主要记录种方式进行说明. 文章链接,请看:...

    flume 安装和使用

    Flume是Cloudera提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的...Flume支持在日志系统中定制各类数据发送方用于收集数据,同时Flume提供对数据的简单处理,并将数据处理结果写入各种数据接收方的能力

    flume 真实案例配置文件

    flume agent收集数据 一个源对于两个sink 同时输出到hdfs和kafka 的配置文件,注意其中的 source绑定channel时候 channel1 channel2 不能分开写,该配置文件已经过集群实验成功收集到数据的

    基于Flume的分布式日志采集分析系统设计与实现.pdf

    #资源达人分享计划#

    flume学习总结3

    flume是分布式的,可靠的,用于从不同的来源有效收集 聚集 和 移动 大量的日志数据用以集中式的数据存储的系统。 是apache的一个顶级项目

    flume学习总结1

    flume是分布式的,可靠的,用于从不同的来源有效收集 聚集 和 移动 大量的日志数据用以集中式的数据存储的系统。 是apache的一个顶级项目

Global site tag (gtag.js) - Google Analytics