基于flume-ng中原有exec的source类型,通过tail依赖于操作系统去监听文件内容变化,其次,不支持断点续传的功能:
https://github.com/cwtree/flume-filemonitor-source
该组件特点如下:
1、一个source对应一个文件监控
2、实时监控文件变化
3、增量传输文件内容
4、支持断点续传功能,即使flume进程挂掉,下一次重启仍然可以继续接着上次断开的地方传输
5、能自动判断是否log文件滚动了(前提,必须做好flume进程的监控,监控到进程不在了,要立即进行重启)
使用只需如下配置即可:
a1.sources.r1.type=org.apache.flume.chiwei.filemonitor.FileMonitorSource
a1.sources.r1.channels=c1
a1.sources.r1.file=/home/flume/example/file/bizlogic.log
a1.sources.r1.positionDir=/home/flume
上面的代码不能实现批量的读取数据,传输的数据也不是按照行传输的。
推荐一个更为完善的代码实现
https://github.com/shunfei/flume-plugin
代码基本是在元flumeNG代码基础上进行修改,但是功能更完善。
相关推荐
http://blog.csdn.net/m0_37739193/article/details/78779686这篇文章方法二所需的代码
Flume配置文件kafkaSource 包含Intercepter,包含正则表达式。
由于flume官方并未提供ftp,source的支持; 因此想使用ftp文件服务器的资源作为数据的来源就需要自定义ftpsource,根据github:https://github.com/keedio/flume-ftp-source,提示下载相关jar,再此作为记录。
flume断点续传覆盖jar,使用组件flume-taildir-source-1.9.0覆盖flume/bin目录下的jar即可
Flume配置文件kafkaSource Interceptor,包含获取数据中的关键词时间日期等信息
Collect data from multiple files, and support for HTTP.(从多个文件收集数据,并支持断点续传。) blog url: #step: ##1,config one path ##2,find all file with RegExp ##3,tail one children file ##4,batch...
flume集群环境搭建,详细讲解,图文并茂,包括flume信息监控和众多文章链接
改了了flume的sqlsource的源码,直接可以根据时间做增量,解决了之前一定要使用递增主键的增量方式,可以使用任意字段做增量,使用起来更方便。
flume配置文件,文件配了说明,可以拿下来改一改就用。 可以获取端口数据监听或者文件、文件夹内容监听,实时写入hdfs、mysql或者你需要的路径。
flume-ng-sql-source-1.5.1 flume连接数据库 很好用的工具
flume抽取数据库数据的源码,可以自动检测数据库的sql语句是否更新
flume-ng-sql-source-1.5.2.jar从数据库中增量读取数据到hdfs中的jar包
Flume自定义Source,数据不丢失,一致性,可以根据自己开发情况选择
flume-ng-sql-source-1.5.3.jar,flume采集mysql数据jar包,将此文件拖入FLUME_HOME/lib目录下,如果是CM下CDH版本的flume,则放到/opt/cloudera/parcels/CDH-xxxx/lib/flume-ng/lib下,同样需要的包还有mysql-...
一个简单的工程,已经设置各种配置,直接只用maven打包好就可以在flume工程包新建plugins.d/custom/lib 目录,并拷贝到下面,并将工程里面的conf文件拷贝到flume的conf目录下启动命令 nohup flume-ng agent -n ...
flume的文件备份项目,pom.xml项目,里面包含源码,整个工程
flume-ng-sql-source-1.5.2源码
flume-ng从数据库抽取数据到kafka,支持按数据库中时间字段,准实时抽取实时数据。已经在oracle-kafka中长期测试可用
flum支持ftp工具jarflum支持ftp工具jar