`

Kafka之海量数据处理

 
阅读更多

Linkedln作为最近最热的社交网站,受到了与会者们的重点关注。开源的Kafka是Linkedln的开源消息队列——包括数据跟踪、记录、指标、消息和队列。仅仅由7000行Scala编写,据了解,Kafka每秒可以生产约25万消息(50 MB),每秒处理55万消息(110 MB)。

在 kafka的核心思路中,不需要在内存里缓存数据,因为操作系统的文件缓存已经足够完善和强大,只要不做随机写,顺序读写的性能是非常高效的。kafka 的数据只会顺序append,数据的删除策略是累积到一定程度或者超过一定时间再删除。Kafka另一个独特的地方是将消费者信息保存在客户端而不是MQ 服务器,这样服务器就不用记录消息的投递过程,每个客户端都自己知道自己下一次应该从什么地方什么位置读取消息,消息的投递过程也是采用客户端主动 pull的模型,这样大大减轻了服务器的负担。Kafka还强调减少数据的序列化和拷贝开销,它会将一些消息组织成Message Set做批量存储和发送,并且客户端在pull数据的时候,尽量以zero-copy的方式传输,利用sendfile(对应java里的 FileChannel.transferTo/transferFrom)这样的高级IO函数来减少拷贝开销。可见,kafka是一个精心设计,特定于 某些应用的MQ系统,这种偏向特定领域的MQ系统我估计会越来越多,垂直化的产品策略值的考虑。

 

kafka官网地址:http://sna-projects.com/kafka/

分享到:
评论

相关推荐

    小滴课堂-海量数据处理商用短链平台大课-资料xiaoecf

    ● 海量数据分库分表+文件存储:Mysql8.0+ShardingSphere多维度分库分表 + 阿里云OSS ● 实时计算+数据处理+存储可视化:Flink1.13 + ClickHouse + HDFS + 数据清洗分层 + Echart可视化数据 ● 分布式链路追踪+监控+...

    第七章-《大数据导论》大数据处理平台.pdf

    Kafka 消息系统,类似于消息队列 计算引擎: MapReduce 批量数据处理引擎;Storm 流式处理引擎;Giraph 并行图处理系统; Spark 通用大数据处理引擎,高效地支持批量处理、流式处理、图处理 数据分析工具: Hive和...

    Apache_Kafka_Share

    主要初衷目标是构建一个用来处理海量日志,用户行为和网站运营统计等的数据处理框架。 Kafka的特性及优势 1. 高吞吐率,kafka的高吞吐率是秒杀其他消息系统的,原因在批处理,压缩,多分区 等。 2. 高性能,MQ系统的...

    大数据处理流程.pdf

    MapReduce最伟⼤之处在于其将处理⼤数据的能⼒赋予了普通开发⼈员,以⾄于普通开发⼈员即使不会任何的分布式编程知识,也能将⾃ ⼰的程序运⾏在分布式系统上处理海量数据。 Hive:MapReduce将处理⼤数据的能⼒赋予...

    基于NS3的分布式消息系统Kafka的仿真实现 (2015年)

    在数据已渗透到我们生活的各个领域的时代,人们对于数据的挖掘和使用愈发频繁。作为以消息为单位进行数据...Kafka 即是一种处理海量数据的分布式消息系统[1]。本文总结了Kafka系统的特征和架构策略,对其进行抽象建模,通

    kafkaDonet用到的dll

    Kafka是分布式消息系统,需要处理海量的消息,Kafka的设计是把所有的消息都写入速度低容量大的硬盘,以此来换取更强的存储能力,但实际上,使用硬盘并没有带来过多的性能损失 kafka主要使用了以下几个方式实现了超高...

    基于阿里云的海量数据处理数据仓库(离线)实战教程

    DateHub:类似于传统大数据解决方案中Kafka的角色,提供了一个数据队列功能。对于离线计算,DataHub除了供了一个缓冲的队列作用。同时由于DataHub提供了各种与其他阿里云上下游产品的对接功能,所以DataHub又扮演了...

    大数据中枢平台解决方案.pptx

    大数据中枢平台解决方案旨在构建一个集成化、智能化的大数据处理与分析平台,以支持企业或组织在海量数据中挖掘价值、优化决策、提升业务效能。以下是一个具体的大数据中枢平台解决方案: 一、平台概述 大数据中枢...

    基于海量数据的消息队列的性能对比与优化方案 (2016年)

    伴随着互联网的高速发展,互联网每日都会产生海量的数据,需要对这些海量数据进行大数据的实时处理,一个性能优良的分布式消息队列,会对系统的数据业务处理效率有极大的推进作用,那么使用什么样的消息队列传输这些海量...

    大数据中枢平台解决方案.docx

    它利用先进的大数据技术,对海量数据进行深度挖掘和分析,为企业或组织提供有价值的信息和决策支持。 二、平台架构 大数据中枢平台采用分层架构,包括数据源层、数据采集层、数据存储层、数据处理层、数据分析层和...

    大数据工程师 作为一名大数据工程师,需要掌握多个方面的技能和知识

    掌握这些技术和工具可以帮助大数据工程师高效地处理和分析大数据,并在海量数据中发现隐藏的模式和关系。 2、数据库和数据仓库: 熟悉数据库和数据仓库的基本知识,包括数据建模、数据设计、数据管理和数据安全等...

    设计数据密集型应用-翻译

    CPU的计算能力不再成为这些应用程序的限制因素,而更加亟待解决的问题是海量的数据、数据结构之间的复杂性,应用的性能。 先看看我们经常打交道的数据系统: 存储数据,以便它们或其他应用程序稍后再找到它...

    新闻日志大数据分析及可视化系统的设计与实现.doc

    过去使用单机的方式通过 MySQL数据库对这些数据进行存储,但是积累下来的用户日志数据量达到了一定的级别,当一台电脑无法存储这么庞大的数据时,就产生了海量数据的存储问题。如果使用网络文件系统对数据进行分开...

    微博基于Flink的机器学习实践.pdf

    微博基于Flink的机器学习实践提供了一种高效、可靠和可扩展的机器学习解决方案,满足了微博平台的海量数据处理和机器学习需求。 知识点: 1. 微博机器学习平台(WML)的总体架构和技术栈 2. Flink在WML中的应用...

    Flink-安装部署与快速入门.docx

    Flink 是一个基于 Apache 项目的开源流处理引擎,旨在提供高效、可靠、灵活的数据处理能力。下面是 Flink 安装部署与快速入门的相关知识点: 1. Flink 诞生背景 Flink 诞生于欧洲的一个大数据研究项目 ...

    Spark离线数仓Flink实时数仓项目源码+部署资料.rar

    HBase:海量数据永久存储,根据主键快速查询 √ Redis:用户表数据量大,内存数据库 × ClickHouse:并发不行,列存 × ES:默认给所有字段创建索引 × Hive(HDFS):效率低下 × Mysql本身:压力太大,实在要用就使用从库 √ ...

    大数据下的数据分析平台架构.pdf

    互联⽹企业的海量数据采集⼯具,有Facebook开源的Scribe、LinkedIn开源的 Kafka、淘宝开源的Timetunnel、Hadoop的Chukwa等,均可以满⾜每秒数百MB的⽇志数据采集和传输需求,并将这些数据上载到Hadoop 中央系统上。...

    基于Spark的电商用户分析系统-开题报告.pdf

    该报告首先介绍了电商用户行为分析的重要性和必要性,然后对基于Spark的电商用户分析系统的设计和实现进行了详细的介绍,包括系统架构、技术架构、数据存储、数据处理、数据分析和可视化等方面。 知识点1:大数据...

    交通管控大数据分析研判系统设计方案.docx

    处理层:系统通过Spark流计算模块,对海量过车数据进行二次比对分析,流计算模块根据系统设置的报警条件,可实时进行多种比对计算。 存储层:包括Hadoop数据库,用于存储海量结构化数据和非结构化数据。可通过动态...

    基于流式计算的电信实时营销系统设计与实现.caj

    该系统采用了实时数据处理与离线数据处理相结合的架构。其中离线数据处理系统通过采用Hadoop集群将用户数据进行标签。实时数据处理系统首先将实时数据以日志的形式存储在Flume中,然后再通过Strom和Spark Streaming...

Global site tag (gtag.js) - Google Analytics