`
fengy20043
  • 浏览: 4129 次
  • 性别: Icon_minigender_2
社区版块
存档分类
最新评论

flume配置及问题处理

阅读更多

一、flume配置

一台机器做负载均衡,二台服务器做存储hdfs

============================================

hadoop01  

============================================

#声明Agent

a1.sources = r1

a1.sinks = k1 k2

a1.channels = c1

 

#声明source

a1.sources.r1.type = spoolDir

a1.sources.r1.spoolDir = /root/work/data/flumeData

a1.sources.r1.interceptors = i1

a1.sources.r1.interceptors.i1.type = timestamp

 

#声明Sink

a1.sinks.k1.type = avro

a1.sinks.k1.hostname = hadoop02

a1.sinks.k1.port = 44444

a1.sinks.k2.type = avro

a1.sinks.k2.hostname = hadoop03

a1.sinks.k2.port = 44444

 

a1.sinkGroups = g1

a1.sinkGroups.g1.sinks = k1 k2

a1.sinkgroups.g1.processor.type = load_balance

a1.sinkgroups.g1.processor.selector = random

 

#声明channel

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000

a1.channels.c1.TransactionCapacity = 100

 

#绑定关系

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

a1.sinks.k2.channel = c1

============================================

hadoop02 hadoop03

============================================

#声明Agent

a1.sources = r1

a1.sinks = k1

a1.channels = c1

 

#声明source

a1.sources.r1.type = avro

a1.sources.r1.bind = 0.0.0.0

a1.sources.r1.port = 44444

 

#声明Sink

a1.sinks.k1.type = hdfs

a1.sinks.k1.hdfs.path = /zebra/reportTime=%Y-%m-%d %H-00-00

#避免产生大量的小文件,因是单机操作,则备份设为1

a1.sinks.k1.hdfs.rollInterval = 30

a1.sinks.k1.hdfs.rollSize = 0

a1.sinks.k1.hdfs.rollCount = 0

a1.sinks.k1.hdfs.fileType = DataStream

a1.sinks.k1.hdfs.minBlockReplicas = 1

 

#声明channel

a1.channels.c1.type = memory

a1.channels.c1.capacity = 1000

a1.channels.c1.TransactionCapacity = 100

 

#声明channel

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

============================================

 

二、启动过程中存在的问题

1、服务器防火墙没有关闭,无法连接服务器


 2、hadoop01读取文件时报错,hadoop01中配置的channel capacity太小,扩大容量

 
3、产生海量小文件,单机版配置roll时间和备份数


 a1.sinks.k2.type=hdfs

a1.sinks.k2.hdfs.path=hdfs://hadoop11:9000/flumedata

a1.sinks.k1.hdfs.fileType = DataStream

a1.sinks.k1.hdfs.rollInterval = 30

a1.sinks.k1.hdfs.rollSize = 0

a1.sinks.k1.hdfs.rollCount = 0

a1.sinks.k1.hdfs.minBlockReplicas = 1

  • 大小: 59.8 KB
  • 大小: 61.4 KB
  • 大小: 73.2 KB
分享到:
评论

相关推荐

    Flume的配置与使用

    Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,...同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

    lamp安装配置及flume+Kafka+Storm+HDFS实时系统搭分享

    lnmp(linux+nginx+mysql+php)安装配置及分布式系统大数据处理hadoop集群中的flume+Kafka+Storm+HDFS等实时系统搭分享

    FlumeConfig:可视化 Flume 配置编辑器

    版本:0.1.0 Flume 配置完全用 Javascript 编写并且是自包含的。 它允许您直观地布置 Flume 拓扑,输入源、通道和接收器的属性,并为您创建水槽配置文件。 它可以处理多个代理。 目前并非所有的源、接收器、通道都...

    全国首份接地气流处理文档,kafka,flume,整合

    文档详细的,手把手教你配置流处理框架的前端,kafka,flume,等

    Flume 数据采集实战

    在实时业务中,我们常将数据采集到 Kafka 中,以供实时组件 streaming 或spark 等分析处理,Flume 在大数据业务中有着重要的应用。 实验目的 掌握 Flume 的配置和使用,能够使用 Flume 实现数据采集操作。

    kafka+flume+kafka中问题.pdf

    如果在一个Flume Agent中同时使用Kafka Source和Kafka Sink来处理events,便会遇到Kafka Topic覆盖问题,具体 表现为,Kafka Source可以正常从指定的Topic中读取数据,但在Kafka Sink中配置的目标Topic不起作用,...

    Flume环境部署和配置详解及案例大全

    flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集...同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。

    Flume_离线处理_日志收集1

    发送日志到Flume在日志服务器应用中导入Log4jAppernder相关开发包配置log4j配置文件,实现发送日志给flume在日志服务器的LogServle

    关于Flume的优化和高可用

    文章目录Flume优化一、内存参数优化(减少GC)1)-xmx和-xms设置相同值,避免在 GC 后调整堆大小带来的压力。2)JVM heap(堆内存)设置4G或更高二、channel优化Flume如何保证数据安全(高可用)事务机制Flume解决...

    influxdb-flume-sink:处理 JSON 格式的 Flume 事件并将它们发送到 InfluxDB 系列的可配置 Flume Sink

    可配置的 Flume Sink 处理 Flume JSON 格式的事件,并使用 InfluxDB HTTP API 将它们发送到 InfluxDB 系列。 依赖关系 最小 json(com.eclipsesource.json 在 ) flume-ng-{configuration,core,sdk}(org.apache....

    基于flume+kafka_spark streaming+hbase的流式处理系统设计与实现.zip

    本资源中的源码都是经过本地编译过可运行的,下载后按照文档配置好环境就可以运行。资源项目的难度比较适中,内容都是经过助教老师审定过的,应该能够满足学习、使用需求,如果有需要的话可以放心下载使用。有任何...

    flume.kafka:基于新 Kafka Producer 的 Flume kafka sink,可配置

    基于新 Kafka Producer 的 Flume kafka sink,高性能且可配置。 它依赖于很少的项目/库,只有 Flume 1.5.2 kafka-clients-0.8.2.1 或更高版本,slf4j。 类似于 Flume 1.6 KafkaSink,但这里有一些不同: Flume 1.6 ...

    Flume学习资料.zip

    大数据日志收集框架Flume学习资料,含Flume接口API文档,Java版和C++版Client代码,以及服务配置Demo 根据日志收集系统架构,各服务器端日志主要通过Apache Flume发送至Kafka集群的各个Topic,Kafka针对各个业务日志...

    lager_flume:用于库存的 Flume 后端

    较大的处理程序配置应该是 {lager_flume_backend, ["localhost", 4141, info]} 虽然水槽节俭源可能看起来像 # thrift source a1.sources.r1.type = thrift a1.sources.r1.channels = c1 a1.sources.r1.bind = 0.0....

    flume-ng-file:Apache Flume NG 的文件处理插件

    Apache Flume NG 的文件处理插件。 文件接收器的配置 agent1.sinks.filesink1.channel = channel1 agent1.sinks.filesink1.type = timandes.flume.sinks.FileSink agent1.sinks.filesink1.pathTemplate = '/var/log...

    基于Spark Streaming + Kafka + Flume 实现的日志收集处理系统.zip

    本资源中的源码都是经过本地编译过可运行的,下载后按照文档配置好环境就可以运行。资源项目的难度比较适中,内容都是经过助教老师审定过的,应该能够满足学习、使用需求,如果有需要的话可以放心下载使用。有任何...

    Flume使用详解(二)

    flume可以支持多级flume的agent,即flume可以前后相继形成多级的复杂流动,例如sink可以将数据写到下一个agent的source中,这样的话就可以连成串了,可以整体处理了。 置多个agent的数据流(多级流动) 数据流合并...

    基于spark+flume+kafka+hbase的实时日志处理分析系统.zip

    在学习的过程中,我遇到了一些挑战,比如配置文件的理解和注解的正确使用,但通过查阅官方文档和阅读相关书籍,我逐渐解决了这些问题。最终,我能够独立地使用Spring Boot开发Web应用程序,并运用其优秀的特性提高了...

Global site tag (gtag.js) - Google Analytics