Flume默认情况下是没有引入HDFS,Kafka,Elasticsearch,Hbase等sink的相关jar包,如果使用,需要自行添加相关jar包。
下面我以使用HDFS Sink为例,在Flume中加入第三方JAR包。
Flume支持一种特殊的目录结构:plugins.d,它有特殊的格式,可以很方面的管理第三方JAR。当然我们可以直接把第三方JAR丢掉$FLUME_HOME/lib目录,但是这样不利于调试和排除故障,特别是处理JAR包冲突的问题。
plugins.d目录:
plugins.d目录位于$FLUME_HOME/plugins.d。在启动的时候,flume-ng启动脚本会检查 plugins.d 目录的插件确保符合下面的格式,并且包含了正确的路径。
插件目录布局:
每个在 plugins.d 内的插件,最多包含三个子目录。
1,lib - 插件的JAR。
2,libext - 插件依赖JAR(S)
3,native - 任何所需的本地库,例如:.so文件
下面是两个插件在 plugins.d 目录中的位置(以下以使用HDFS Sink为例):
plugins.d/
plugins.d/hdfs-sink/
#flume-hdfs-sink-1.5.1.jar是Flume自带的,所有lib目录为空
plugins.d/hdfs-sink/lib/
#flume-hdfs-sink-1.5.1.jar依赖以下四个包
plugins.d/hdfs-sink/libext/commons-configuration-1.6.jar
plugins.d/hdfs-sink/libext/hadoop-annotations-2.4.1.jar
plugins.d/hdfs-sink/libext/hadoop-auth-2.4.1.jar
plugins.d/hdfs-sink/libext/hadoop-common-2.4.1.jar
plugins.d/hdfs-sink/libext/hadoop-hdfs-2.4.1.jar
#没有本地库
plugins.d/hdfs-sink/native/
#HDFS配置文件
plugins.d/hdfs-sink/conf/hdfs-site.xml
plugins.d/hdfs-sink/conf/core-site.xml
以上是HDFS所需的配置文件和依赖的JAR。
配置Flume环境变量:
JAVA_HOME=/usr/local/jdk1.8.0_45
# Give Flume more memory and pre-allocate, enable remote monitoring via JMX
#JAVA_OPTS="-Xms100m -Xmx200m -Dcom.sun.management.jmxremote"
# Note that the Flume conf directory is always included in the classpath.
#将hdfs-site.xml和core-site.xml放入Flume的环境变量中
FLUME_CLASSPATH="/data/apache-flume-1.5.1-bin/plugins.d/hdfs-sink/conf/"
OK,完事具备,最后采集数据到HDFS中
a1.sources = source1
a1.sinks = sink1
a1.channels = channel1
#resources
a1.sources.source1.type = spooldir
a1.sources.source1.channels = channel1
a1.sources.source1.spoolDir = /data/logs
a1.channels.channel1.type = memory
a1.channels.channel1.capacity = 1000
a1.channels.channel1.transactionCapacity = 500
a1.sinks.sink1.type = hdfs
a1.sinks.sink1.channel = channel1
a1.sinks.sink1.hdfs.path = /flume/events/%Y-%M-%d
a1.sinks.sink1.hdfs.fileType = DataStream
a1.sinks.sink1.hdfs.rollCount = 0
a1.sinks.sink1.hdfs.rollSize = 0
a1.sinks.sink1.hdfs.rollInterval = 0
a1.sinks.sink1.hdfs.rollSize = 1073741824
a1.sinks.sink1.hdfs.filePrefix = nginx-%H-%M
a1.sinks.sink1.hdfs.batchSize = 200
a1.sinks.sink1.hdfs.round = true
a1.sinks.sink1.hdfs.roundValue = 10
a1.sinks.sink1.hdfs.roundUnit = minute
a1.sinks.sink1.hdfs.useLocalTimeStamp = true
该示例是通过SpoolingDirectorySource获取数据放入HDFS中
分享到:
相关推荐
lnmp(linux+nginx+mysql+php)安装配置及分布式系统大数据处理hadoop集群中的flume+Kafka+Storm+HDFS等实时系统搭分享
flume1.9.0+hdfs3.2.2相关jar
flume+kafka+flink+mysql实现nginx数据统计与分析
利用Flume将MySQL表数据准实时抽取到HDFS、MySQL、Kafka用到的jar包
flume-ng-hdfs-sink-1.7.0.jar,这个包里包含了flume和HDFS集成的所有类
Flume+kafka+Storm整合 示例简介: 以下为三个组建整合,这里只做操作也演示结果,原理性方面大家多学习基础。 流程顺序是flume获取telnet数据,将接收到的数据发送至kafak,kafka作为Storm的spout,Storm进行有向无...
通过修改flume源码实现flume向两个HA hadoop集群分发数据。
自己研究大数据多年,写的一个日志数据采集方案笔记,可快速熟悉Flume,Kafka,Hdfs的操作使用,以及相互的操作接口。
有任何问题也可以随时私信博主,博主会第一时间给您解答!!! 本资源中的源码都是经过本地编译过可运行的,下载后按照文档配置好环境就可以运行。资源项目的难度比较适中,内容都是经过助教老师审定过的,应该能够...
基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例.txt基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例.txt基于Flume+Kafka+Hbase+Flink+FineBI的实时综合案例.txt基于Flume+Kafka+Hbase+Flink+FineBI的实时综合...
1、内容概要:Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+Elasticsearch+Redash等大数据集群及组件搭建指南(详细搭建步骤+实践过程问题总结)。 2、适合人群:大数据运维、大数据相关技术及组件初学者。 3、...
通过修改flume源码实现flume向两个HA hadoop集群分发数据。
flume+Logstash+Kafka+Spark Streaming进行实时日志处理分析【大数据】
本科毕业设计项目,基于spark streaming+flume+kafka+hbase的实时日志处理分析系统 基于spark streaming+flume+kafka+hbase的实时日志处理分析系统 本科毕业设计项目,基于spark streaming+flume+kafka+hbase的...
flime安装+配置+测试+案例(采集日志至HDFS)+理论+搭建错误解决,超详细flum搭建,一篇带你入门flume,通俗易懂,详细步骤注解!!!
大数据实习hdfs+flume+kafka+spark+hbase+hive项目.zip
解决flume上传文件至HDFS报错问题。需要手动将hadoop相关jar包导入flume的lib目录下。
log4j+flume+kafka+storm整合
毕业设计,课程设计,项目源码均经过助教老师测试,运行无误,欢迎下载交流 ----- 下载后请首先打开README.md文件(如有)