阅读更多

1顶
0踩

开源软件

原创新闻 Apache Flink :回顾2015,展望2016

2016-02-16 15:56 by 副主编 mengyidan1988 评论(0) 有6171人浏览
回顾2015,总体而言Flink在功能方面已经从一个引擎发展成为最完整的开源流处理框架之一。与此同时,Flink社区也从一个相对较小,并且地理上集中的团队,成长为一个真正的全球性的大型社区,并在Apache软件基金会成为最大的大数据社区之一。接下来看看一些有趣的统计数据,其中就包括Flink每周最繁忙的时间是星期一,肯定出乎很多人所料:)

社区发展

首先,我们从Flink的GitHub库中看一些简单的统计。在2015年,Flink社区规模扩大了一倍,人数从大约75名贡献者超过150名。从2015年2月至2015年12月,其github库的复制数量超过了三倍,从160增长至544,而其star数目的增长也接近3倍,从289增至813。



尽管Flink创建于德国柏林,然而现在其社区遍布全球,拥有来自北美,欧洲以及亚洲的许多贡献者。在著名线下交友网站meetup.com上做一个简单的关于提及Flink作为重点领域的组织的搜索,搜索结果表明全世界有16个这样的组织:



2015 Flink 推进会

毫无疑问,对于Flink而言,2015年的最重要的事件之一就是10月份在柏林举办的Flink 推进会,这是Apache Flink的首次会议。来自谷歌,MongoDB,布依格斯电信,NFLabs,Euranova,RedHat,IBM,华为,Intel,爱立信,Capital One,Zalando,Amadeus,the Otto Group和ResearchGate的250多名的参会者(大约一半总部位于德国以外),参加了超过33的技术会谈。如果你想了解这些技术会议的内容,可以通过Flink Forward网站查看相关幻灯片和视频。



有趣的是,在 2016年 EMEA Hadoop峰会已提交的议题和摘要中, 提及Flink的高达17个议题:



趣味统计:开发人员(提交者)何时提交代码?

为了更深入的了解发生在Flink社区的事情,让我们在这个项目的 git 日志上做一些分析:-) ,最简单的做法是在 git 库中统计2015年提交的总数目。运行如下代码:
git log --pretty=oneline --after=1/1/2015  | wc -l

2015年Flink git库总共产生2203次提交。为了更深入地探究提交者的行为,我们将使用一个称为gitstats的开源工具进行分析,这将会带来一些有趣的统计结果。你可以通过以下四个简单的步骤来创建并更多了解:

1.从 project homepage..下载gitstats,举个例子:在OS X上使用自带软件,键入:
brew install --HEAD homebrew/head-only/gitstats

2.克隆Apache Flink git库:
git clone git@github.com:apache/flink.git

3.利用gitstats产生统计数据:
gitstats flink/ flink-stats/

4.在你常用的浏览器中(例如:chrome)查看统计页面:
chrome flink-stats/index.html

首先,我们可以观察到从Apache项目孵化开始,Flink的源代码行数一直平稳增长,在2015年,其代码库几乎翻了一番,源代码行数从500,000增至900,000。



当Flink的开发者提交代码时,可以发现一个有趣的现象,到目前为止,代码都是集中在周一下午进行提交。



功能时间图

下面是一个(非详尽)的时间顺序图,用于显示在2015年,Flink以及Flink生态系统新增了哪些主要功能:



2016年发展蓝图

Flink社区已经开始讨论今后Flink的发展蓝图,下面列举一些主要内容:

流式作业运行时伸缩:流式作业需要不间断运行,并且需要对一个不断变化的环境作出反应。运行时伸缩意味着为了支持特定的服务等级协议,从而动态地增加和减少作业的并行度,或者对输入的吞吐量变化作出反应。

针对静态数据集和数据流的SQL查询:用户以Flink 表 API 为基础,可以通过编写SQL语句查询静态数据集,以及针对数据流进行查询从而连续产生新的结果。

有托管内存支持的流运算:目前,流运算像用户自定义状态和窗口都是由JVM堆对象支持。将这些内容移至Flink托管内存会增加溢出到磁盘的能力,垃圾回收效率的能力,从而可以更好地控制内存的使用。

检测时间事件模式库:在流处理中经常要检测一个时间戳的事件流模式。Flink通过事件时间,对此进行了支持,利用库的形式可以实现很多诸如此类的操作。

对Apache Mesos以及动态资源YARN的支持:同时支持Mesos 以及 YARN,包括动态分配和资源释放,从而获得更多资源弹性(包括批处理和流式处理)。

安全性:对TaskManagers 和 JobManager之间的信息交换以及workers之间的数据交换连接,都进行加密。

更加丰富的流式连接、更多的运行时度量以及连续数据流API增强:支持更多的源和汇(例如,Amazon Kinesis,Cassandra,Flume,等等),给用户提供更多的度量指标,并提供持续改进的数据流API。

如果你对这些功能感兴趣,强烈建议去查看下当前的草案,并加入 Flink 邮件列表讨论。

原文:Flink 2015: A year in review, and a lookout to 2016
译者:郭亚和,从事大数据(spart/storm/hadoop/hbase)相关运维、分析等工作。
  • 大小: 70.7 KB
  • 大小: 59.6 KB
  • 大小: 113 KB
  • 大小: 103.7 KB
  • 大小: 102.2 KB
  • 大小: 74.1 KB
  • 大小: 74.1 KB
1
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 回顾 | Apache Flink 1.9 版本新特性强势预告!(内含PPT下载链接)

    6月29日,Apache Flink Meetup 北京站圆满落幕,Apache Flink 1.9 版本是自 Flink 1.0 之后变化最大的版本,社区对 Flink 进行大量重构并且加入了很多新 Feature。此次 Meetup 重点解读 Flink 1.9 版本新特性。 ▼ ...

  • Apache Flink在 bilibili 的多元化探索与实践

    简介:bilibili 万亿级传输分发架构的落地,以及 AI 领域如何基于 Flink 打造一套完善的预处理实时 Pipeline。 本文由 bilibili 大数据实时平台负责人郑志升分享,本次分享核心讲解万亿级传输分发架构的落地,以及 ...

  • 年度回顾 | 2019 年的 Apache Flink

    2019 年即将落下帷幕,这一年对于 Apache Flink 来说是非常精彩的一年,里程碑式的一年。随着这一年在邮件列表发送了超过 1 万封邮件,JIRA 中超过 4 千个 tickets,以及 GitHub 上超过 3 千个 PR,Apache Flink ...

  • 年度回顾 | 2019 年的 Apache Flink(文末有福利)

    2019 年即将落下帷幕,这一年对于 Apache Flink 来说是非常精彩的一年,里程碑式的一年。随着这一年在邮件列表发送了超过 1 万封邮件,JIRA 中超过 4 千个 ticke...

  • Apache Flink不止于计算,数仓架构或兴起新一轮变革

    作者 | 蔡芳芳 采访嘉宾 | 王峰(莫问) 维基百科的“Apache Flink”词条下,有这么一句描述:“Flink 并不提供自己的数据存储系统,但为 Amazon ...

  • Apache Flink 在 bilibili 的多元化探索与实践

    摘要:本文由 bilibili 大数据实时平台负责人郑志升分享,本次分享核心讲解万亿级传输分发架构的落地,以及 AI 领域如何基于 Flink 打造一套完善的预处理实时 Pipeline。...

  • 精彩回顾 | Apache Flink Meetup · 北京站(附PPT下载)

    9 月 21 日下午,2019 年度最后一场 Meetup 在帝都圆满落幕,来自阿里巴巴、小米、贝壳找房的资深专家们现场分享了小米的 Flink 应用实践、贝壳找房的实时...

  • Apache Paimon 流式数据湖 V 0.4 与后续展望

    阿里云开源大数据表存储团队负责人、阿里巴巴高级技术专家,Apache Flink PMC,Paimon PPMC 李劲松(之信)在 Apache Paimon Meetup 的分享。

  • Apache Flink 不止于计算,数仓架构或兴起新一轮变革

    作者 | 蔡芳芳 采访嘉宾 | 王峰(莫问) 维基百科的“Apache Flink”词条下,有这么一句描述:“Flink 并不提供自己的数据存储系统,但为 Amazon Kin...

  • wdaaaaaaaaaafwawfw

    wdaaaaaaaaaafwawfw

  • scratch少儿编程逻辑思维游戏源码-十字鸭子.zip

    scratch少儿编程逻辑思维游戏源码-十字鸭子.zip

  • Android移动应用开发_ViewFlow自定义控件CircleFlowIndicator指示器网络图片加载缓存自动循环滚动手势滑动交互_横向循环平滑滚动广告条Banne.zip

    Android移动应用开发_ViewFlow自定义控件CircleFlowIndicator指示器网络图片加载缓存自动循环滚动手势滑动交互_横向循环平滑滚动广告条Banne

  • 前端开发_基于jQuery和EasyUI框架_企业级Web应用UI组件库与后台管理系统模板_提供GPL开源版本和商业授权版本的双重授权模式_适用于快速构建响应式管理后台和复杂数据可.zip

    前端开发_基于jQuery和EasyUI框架_企业级Web应用UI组件库与后台管理系统模板_提供GPL开源版本和商业授权版本的双重授权模式_适用于快速构建响应式管理后台和复杂数据可

  • C++编程实例100篇.zip

    《C++编程实例100篇》是一本深入实践、极具价值的编程教程,它针对C++编程语言提供了丰富的实例,旨在帮助读者更好地理解和掌握C++的各项特性与编程技巧。这本书的经典之处在于它将理论与实践相结合,通过100个精心设计的编程实例,覆盖了C++的各个核心领域,包括基础语法、面向对象编程、模板、异常处理、STL(标准模板库)等。 我们来探讨C++的基础语法。C++是C语言的增强版,它保留了C语言的高效性和灵活性,并引入了类、对象和继承等面向对象编程概念。基础语法包括变量声明、数据类型、运算符、控制结构(如if语句、for循环、while循环)、函数的定义和调用等。在实例中,你可能会遇到如何编写简单的程序,如计算两个数的和,或者实现一个简单的猜数字游戏。 C++的面向对象编程是其一大特色。通过类和对象,你可以构建复杂的软件系统。类是对象的蓝图,它定义了对象的属性和行为。实例化一个类,就是创建一个具体的对象。继承允许你创建新的类,这些类从现有的类派生,共享其属性和方法,同时可以添加新的功能。多态性是面向对象的另一个关键特性,它使得不同类型的对象可以对同一消息作出不同的响应。这些概念在实例中会以各种形式展现,例如设计一个图形界面的类层次,或实现一个简单的模拟游戏。 接下来是模板,C++的模板功能让代码更加通用,可以处理不同类型的数据。模板分为函数模板和类模板,前者可以创建泛型函数,后者可以创建泛型类。通过模板,你可以编写出高效且灵活的代码,比如实现一个通用的排序算法。 异常处理是C++中用于处理程序运行时错误的机制。当程序出现异常情况时,可以抛出一个异常,然后在适当的点捕获并处理这个异常。这使得代码能够优雅地处理错误,而不是让程序崩溃。实例中可能会有涉及文件操作或网络通信时可能出现的异常处理示例。

  • scratch少儿编程逻辑思维游戏源码-忍者无限跑者.zip

    scratch少儿编程逻辑思维游戏源码-忍者无限跑者.zip

  • 少儿编程scratch项目源代码文件案例素材-战斗机游戏.zip

    少儿编程scratch项目源代码文件案例素材-战斗机游戏.zip

  • 手工DIY行业_微信小程序云开发_手工坊预约管理系统_基于腾讯云开发技术的手工DIY行业线上线下结合解决方案_包含手工项目展示预约管理签到核销数据统计等完整功能_支持后台时段设置人.zip

    手工DIY行业_微信小程序云开发_手工坊预约管理系统_基于腾讯云开发技术的手工DIY行业线上线下结合解决方案_包含手工项目展示预约管理签到核销数据统计等完整功能_支持后台时段设置人

  • 【多媒体处理】FFmpeg常用命令总结:音频视频转换裁剪及特效处理实用技巧

    内容概要:本文档汇总了FFmpeg工具的多个实用命令示例,涵盖音频和视频处理的各个方面。包括但不限于:音频采样率转换、音频格式转为raw、查询音频文件时长与音量检测、调整音频音量大小、改变音频播放速度、视频逆序播放(针对无音频视频)、精准视频片段截取、音频片段截取、视频与音频合并处理、调整视频宽高比等。每个命令都提供了具体的参数设置方法; 适合人群:音视频编辑爱好者、多媒体处理领域的初学者或有一定经验的技术人员; 使用场景及目标:①在音频处理方面,可以完成从格式转换到音质调整的任务;②在视频处理上,能够实现基本的剪辑操作如切割、翻转、合并等;③为用户提供了一站式的解决方案,帮助用户快速掌握FFmpeg命令行工具的基本用法,提高工作效率; 阅读建议:本指南以命令实例为主,建议读者结合实际需求选择相应的命令进行尝试,在实践中理解各个参数的作用并灵活运用。

  • 传统硬盘建模及其预测控制系统设计(MATLAB)

    一、毕业设计的技术背景和设计依据 计算机硬盘驱动器作为一种存储数据信息的设备,在目前的计算机系统中起着不可替代的作用,读写的快慢对整个计算机系统的性能无疑占有重要地位。硬盘式电子计算机磁记录机构中最为精密的一类微机电系统设备,它对振动的敏感性是由其结构决定的,而其控制尚未很好的解决,针对硬盘展开建模及控制有着重要的实际应用价值。 二、毕业设计的任务 现代硬盘一般有 1 - 5 个盘片,以常见的 3.5 英寸硬盘为例,盘片直径约为 95mm,厚度约为 0.635mm。磁头数量通常与盘片数量相关,每面盘片有一个磁头,比如一个 3 盘片的硬盘就有 6 个磁头。缓存大小可能为 32MB、64MB 或 128MB 等,如某普通硬盘缓存为 64MB,电机功率一般在 2 - 5W,像转速为 7200RPM(转每分钟)的电机功率约 3W。数据写入时,磁头在电机带动下,以平均寻道速度约 10 - 15m/s 定位磁道。以一块顺序写入数据的硬盘为例,当写入连续大文件,如 1GB 的视频文件时,在 SATA3.0 接口下,理论传输带宽为 6Gb/s(约 750MB/s),实际可达 500 - 600MB/s。读取时,磁头感应盘片磁场变化,如读取小文件(1MB 大小),若磁头寻道距离平均为 1000 个磁道,每次寻道时间约 8 - 12ms,读取速度会因寻道而下降到 10 - 20MB/s。 本设计选取硬盘驱动器作为研究对象,假设电机扭矩为 0.3N・m,盘片转动惯量为 0.003kg・m²,轴承摩擦力矩为 0.03N・m。在稳定旋转阶段,转速波动范围设为额定转速的 ±0.5%,即 ±36RPM。首先通过对该系统分析建立了其物理模型,然后针对以音圈电机作为伺服机构的硬盘磁头定位伺服系统的性能要求,对音圈电机的控制设计采用三种控制器方案,即极点配置法、PID控制方法、线性二次型调节器方法,分别比较分

Global site tag (gtag.js) - Google Analytics