1、创建flume监听的目录,如果不嫌创建,启动flume时会报错
2、配置flume
sources:目录
channels:内存
skin:hdfs
#定义agent名, source、channel、sink的名称 a4.sources = s1 a4.channels = c1 a4.sinks = s1 #具体定义source a4.sources.s1.type = spooldir a4.sources.s1.spoolDir = /root/logs #具体定义channel a4.channels.c1.type = memory a4.channels.c1.capacity = 10000 a4.channels.c1.transactionCapacity = 100 #定义拦截器,为消息添加时间戳 a4.sources.s1.interceptors = i1 a4.sources.s1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Builder #具体定义sink a4.sinks.s1.type = hdfs a4.sinks.s1.hdfs.path = hdfs://ns1/flume/%Y%m%d a4.sinks.s1.hdfs.filePrefix = events- a4.sinks.s1.hdfs.fileType = DataStream #不按照条数生成文件 a4.sinks.s1.hdfs.rollCount = 0 #HDFS上的文件达到128M时生成一个文件 a4.sinks.s1.hdfs.rollSize = 134217728 #HDFS上的文件达到60秒生成一个文件 a4.sinks.s1.hdfs.rollInterval = 60 #组装source、channel、sink a4.sources.s1.channels = c1 a4.sinks.s1.channel = c1
3、
copy hadoop-common-x.x.x.jar、commons-configuration-x.x.jar、hadoop-auth-x.x.x.jar、hadoop-hdfs-x.x.x.jar到flume/lib下,flume把数据写如到hdfs时需要使用hadoop API
copy core-site.xml、hdfs-site.xml到flume/conf,flume需要知道hadoop的具体配置
4、启动flume,配置文件名称为a4.conf
bin/flume-ng agent -n a4 -c conf -f conf/a4.conf -Dflume.root.logger=INFO,console
此时只有文件被放入/root/logs就会被flume收集到,上传到hdfs
相关推荐
让你快速认识flume及安装和使用flume1 5传输数据 日志 到hadoop2 2 中文文档 认识 flume 1 flume 是什么 这里简单介绍一下 它是 Cloudera 的一个产品 2 flume 是干什么的 收集日志的 3 flume 如何搜集日志 我们把...
Source: 数据收集组件。(source从Client收集数据,传递给Channel) Channel: 中转Event的一个临时存储,保存由Source组件传递过来的Event。(Channel连接 sources 和 sinks ,这个有点像一个队列。) Sink...
Apache Flume 是一个分布式、高可靠、高可用的用来收集、聚合、转移不同来源的大量日志数据到中央数据仓库的工具 Apache Flume是Apache软件基金会(ASF)的顶级项目 Event是Flume定义的一个数据流传输的最小单元。...
2 分布式数据收集:Flume 原理与应用 2 分布式数据收集:Flume 原理与应用
Hadoop数据导入导出 :Flume收集数据-安装讲课
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可...
其中上篇介绍了HDFS以及流式数据/日志的问题,同时还谈到了Flume是如何解决这些问题的。本书展示了Flume的架构,包括将数据移动到数据库中以及从数据库中获取数据、NoSQL数据存储和性能调优。
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可...
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可...
Flume NG是Cloudera提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG,进行了架构重构,...
系统的学习Flume,掌握最先进的数据收集技术。 l Flume n 快速入门 n 核心详解 n 企业应用 n 自定义Flume组件 n 监控 4、主讲内容 章节一:Flume概述 章节二:Flume架构 章节三:Flume安装 章节四:入门使用案例 ...
Apache flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统,用于有效地收集、聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储(如文本、HDFS、Hbase等)。 其使用不仅仅限于日志...
flume-ng-1.6.0-cdh5.14.2是常见flume分布式数据收集框架的压缩包
基于Flume的MySQL数据自动收集系统.pdf
Log4j直接发送数据到Flume + Kafka (方式一) 通过flume收集系统日记, 收集的方式通常采用以下. 系统logs直接发送给flume系统, 本文主要记录种方式进行说明. 文章链接,请看:...
Flume是Cloudera提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的...Flume支持在日志系统中定制各类数据发送方用于收集数据,同时Flume提供对数据的简单处理,并将数据处理结果写入各种数据接收方的能力
flume agent收集数据 一个源对于两个sink 同时输出到hdfs和kafka 的配置文件,注意其中的 source绑定channel时候 channel1 channel2 不能分开写,该配置文件已经过集群实验成功收集到数据的
#资源达人分享计划#
flume是分布式的,可靠的,用于从不同的来源有效收集 聚集 和 移动 大量的日志数据用以集中式的数据存储的系统。 是apache的一个顶级项目
flume是分布式的,可靠的,用于从不同的来源有效收集 聚集 和 移动 大量的日志数据用以集中式的数据存储的系统。 是apache的一个顶级项目