阅读更多
Fregata是TalkingData开源的一个基于Spark的轻量级、超快速的大规模机器学习库,并在Scala中提供高级API。

显著特征:
  • 更加准确:Fregata的精确度要高于MLLib;
  • 高速度:对于广义线性模型,Fregata通常汇合在一个数据历元。对于10亿*10亿的数据集,Fregata可以在1分钟内使用内存缓存或10分钟完成一个广义线性模型训练,速度要比MLLib快10-100倍;
  • 参数自由:Fregata使用GSA SGD优化,无需学习速率调整,原因是研发团队找到了一种在训练过程中计算学习速率的方法。当面对超高维问题时,Fregata会动态计算剩余内存来确定输出的稀疏性,自动平衡精度和效率;
  • 轻量:Fregata只使用了Spark的标准API即可快速、无缝地集成到Spark上的大多数业务数据处理流程中。

架构

这里主要介绍1.0版本架构。核心部分主要基于GSA独立算法实现,包括分类,回归和聚类:
  • 分类:支持二进制和多重分类
  • 回归:在下面的版本中发布
  • 聚类:在下面的版本中发布

Spark:主要通过封装core.jar实现基于Spark的大规模机器学习算法,并提供相应的算法。

如何安装及快速入门,大家可以访问其在Github上的开源地址
引用

130+位讲师,16大分论坛,中国科学院院士陈润生、滴滴出行高级副总裁章文嵩、联想集团高级副总裁兼CTO芮勇、上交所前总工程师白硕等专家将亲临2016中国大数据技术大会,票价折扣即将结束,预购从速



  • 大小: 252.7 KB
0
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 轻量级大规模机器学习算法库Fregata开源:快速,无需调参

    12年大规模机器学习和数据挖掘经验,对推荐系统、计算广告、大规模机器学习算法并行化、流式机器学习算法有很深的造诣;在国际顶级会议和期刊上发表论文12篇,申请专利9项;前IBM CRL、腾讯、华为诺亚方舟实验室数据...

  • [转]轻量级大规模机器学习算法库Fregata开源

    轻量级大规模机器学习算法库Fregata开源:快速,无需调参 http://geek.csdn.net/news/detail/129806作者:张夏天,TalkingData首席数据科学家。12年大规模机器学习和数据挖掘经验,对推荐系统、计算广告、大规模...

  • Fregata 机器学习算法库开源:快速,无需调参

    大规模机器学习的挑战 随着互联网,移动互联网的兴起,可以获取的数据变得越来越多,也越来越丰富。数据资源的丰富,给机器学习带来了越来越多,越来越大创造价值的机会。 机器学习在计算广告,推荐系统这些价值上...

  • Fregata使用简介

    最近TalkingData开源了Fregata,Fregata的主要作用是加速基于spark的机器学习的计算速度,据说10亿*10亿级别的数据如果缓存到内存中的话用1s钟就可以算完,如果不缓存的话,十秒钟搞定,如果这么来的话,那真是碉堡...

  • 【CSDN AI 周刊】No. 004 | 2017年深度学习十大趋势预测

    若您有希望与业界分享的AI实施案例、资料整理、学习笔记、趣闻妙谈,请发送邮件至wangyi@csdn.net,期待您的声音。2017年深度学习十大趋势预测本文作者曾经多次预测了技术发展的趋势,最近的一次预测是“2011年软件...

  • 开源大数据周刊-第34期

    轻量级大规模机器学习算法库Fregata开源 Fregata是TalkingData开源的大规模机器学习算法库,基于Spark,目前支持Spark 1.6.x, 很快会支持Spark 2.0。目前Fregata包括了Logistic Regression, Softmax, 和Random ...

  • 2016年大数据80篇爆款文章:这一年你追过的那些技术

    回过头来我们看看这一年的脚印,这里我按照文章内容做了一次汇总,分为:流处理、机器学习、用户画像、数据驱动、Hadoop、Apache Spark、Apache Kylin、Druid、推荐系统和大数据平台架构。 流处理 2016年流式...

  • 2017年深度学习十大趋势预测

    2017年深度学习十大趋势预测 本文作者曾经多次预测了技术发展的趋势,最近的一次预测是“2011年软件发展的趋势与预测”。10项预言中,准确地命中了6项,比如JavaScript VM、NoSQL、大数据分析、私有云、Scala...

  • ArchSummit2016干货分享+美团:即时物流调度平台实践+一点资讯:兴趣引擎-深度融合搜索和推荐+阿里-智能问答系统的实践

    ThinkData:Fregata- Spark上的轻量级大规模机器学习算法库 已开源: https://github.com/TalkingData/Fregata 基于Spark实现的分布式机器学习算法库,目前只有几个基础的模型(LR、softmax、RDT),声称相比MLlib...

  • 基于Simulink的底层模型构建与代码生成系统:DBC自动导入、硬件信号支持

    内容概要:本文深入探讨了Simulink If模块在嵌入式系统开发中的强大功能,特别是在汽车电子领域的应用。主要介绍了两种核心技术:一是DBC文件的自动导入生成模型及代码,二是硬件信号的导入生成模型及代码。DBC文件的自动导入能够快速构建CAN总线通信模型,简化信号解析和报文处理,生成的代码可以直接应用于AUTOSAR架构,实现ASW和BSW的无缝对接。硬件信号导入功能则允许开发者轻松地将硬件设备产生的信号集成到Simulink模型中,自动生成带有信号处理逻辑的代码,适用于实时数据采集和控制算法实现。此外,文中还详细展示了具体的MATLAB代码示例,解释了关键步骤和技术细节。 适合人群:从事嵌入式系统开发、汽车电子开发的工程师和技术人员,尤其是那些希望提高开发效率、减少手动配置工作的专业人士。 使用场景及目标:① 快速搭建基于DBC文件的CAN通信模型,自动生成符合AUTOSAR标准的代码;② 实现硬件信号的实时处理和控制,如数据采集、信号滤波等;③ 提升开发效率,缩短项目周期,降低错误率。 其他说明:文中提到的技术不仅限于汽车电子领域,也可广泛应用于工业自动化和其他需要复杂信号处理和实时控制的场合。

  • 交变磁场对含感应材料沥青路面温度的影响

    内容概要:本文探讨了交变磁场下含感应材料的沥青路面温度变化现象及其背后的物理原理。通过引入交变磁场与感应材料的相互作用,沥青路面能够产生感应电流并转化为热量,从而提高路面温度。文中详细介绍了这一过程的理论基础,如焦耳定律和涡流损耗,并提供了多个Python代码片段用于模拟和验证相关物理现象。此外,还讨论了该技术的实际应用场景,特别是在寒冷地区的冬季融雪除冰方面,以及对道路养护工作的积极影响。同时,文章提到了当前面临的技术挑战,如材料配比、施工难度和成本问题,并展望了未来的发展方向,包括智能化控制系统的应用。 适合人群:从事道路工程、物理学、材料科学及相关领域的研究人员和技术人员。 使用场景及目标:适用于希望了解新型道路工程技术的研发人员,旨在探索交变磁场与感应材料结合在沥青路面温度控制方面的潜力,推动技术创新和发展。 其他说明:文章不仅阐述了基本原理,还展示了具体的数学建模和编程实例,帮助读者深入理解该技术的具体实现方法。同时也指出了现有技术和未来发展的局限性和改进空间。

  • 模块化多电平(MMC)仿真:4电平MMC仿真模型

    内容概要:本文详细介绍了4电平模块化多电平变换器(MMC)的仿真模型建立过程。首先回顾了MMC的基本原理,即通过控制子模块(SM)的投入和切除来合成所需电压。接着分别展示了基于Python和Matlab两种环境下的具体实现方式,包括子模块类的设计、桥臂电压计算、仿真参数配置等。文中不仅提供了完整的代码示例,还分享了许多实用技巧,如避免上下管同时导通、正确处理电容电压平衡、优化载波移相角等。此外,作者强调了实际操作过程中可能遇到的问题及解决方案,例如电容电压纹波过大、IGBT损耗增加、输出电压频谱存在毛刺等。 适合人群:从事电力电子相关领域的研究人员和技术人员,尤其是对MMC感兴趣并希望深入了解其内部机制的人士。 使用场景及目标:帮助读者掌握4电平MMC的工作原理,学会利用Python或Matlab进行仿真建模,提高解决实际工程问题的能力。 其他说明:文章内容丰富详实,既有理论讲解也有实践经验分享,非常适合想要深入学习MMC技术的专业人士阅读。

  • 西门子PLC与发那科机器人协同工作:净水器碳芯检测案例

    内容概要:本文详细介绍了西门子S7-1200 PLC与发那科机器人、三菱伺服以及视觉系统的集成应用,用于净水器碳芯的检测。系统通过PLC进行四轴伺服控制,两台发那科机器人分别完成抓取和分拣任务,视觉系统负责精准定位。文中深入探讨了硬件布局、通讯协议、伺服控制逻辑、机器人程序、视觉处理算法等方面的细节和技术难点,如电机抖动、视觉补偿失效、通讯丢包等问题及其解决方案。最终,系统实现了4.5秒/件的检测节拍,误检率降至0.3%,展示了跨品牌设备高效协同工作的可能性。 适合人群:从事工业自动化领域的工程师、技术人员,尤其是对PLC编程、机器人控制、视觉系统集成感兴趣的读者。 使用场景及目标:适用于需要深入了解PLC与机器人协作、视觉系统集成的实际应用场景,旨在提高工业生产线的自动化水平和检测精度。 其他说明:文中不仅提供了具体的代码示例,还分享了许多调试经验和优化技巧,有助于读者更好地理解和掌握相关技术。

  • 自动泊车APA超声波算法开发技术详解

    内容概要:本文详细探讨了自动泊车辅助系统(APA)中超声波算法的作用及其面临的挑战。首先介绍了超声波传感器的基本工作原理,即通过发射和接收超声波来测量距离。接着阐述了超声波算法在自动泊车系统中的具体应用,如构建车辆周围的环境模型、路径规划以及应对复杂的停车场景。文中还讨论了多种优化算法和技术手段,比如动态阈值调整、概率栅格法、Hybrid A*算法等,旨在提高系统的鲁棒性和准确性。此外,针对实际环境中可能出现的问题,如天气条件对超声波的影响、多传感器数据融合困难等,提出了相应的解决方案,如天气补偿算法、温度补偿模块等。 适用人群:从事自动驾驶技术研发的工程师、研究人员,以及对智能交通感兴趣的科技爱好者。 使用场景及目标:适用于希望深入了解自动泊车系统内部机制的人群,帮助他们掌握超声波算法的设计思路和实现方式,从而更好地应用于实际产品开发中。 其他说明:文章不仅提供了理论知识,还包括大量实用的代码示例,有助于读者快速理解和实践。同时强调了工程实践中遇到的具体问题及解决办法,使读者能够全面认识这一领域的现状和发展趋势。

  • 基于小波变换的图像融合步骤详解:从分解到融合,生成融合图像的过程

    内容概要:本文详细介绍了基于小波变换的图像融合技术,涵盖了从理论到实践的具体步骤。首先解释了小波变换的基本原理,即将图像分解为不同频段的子图像,再通过特定的融合规则处理这些子图像,最后利用小波逆变换重建融合图像。文中提供了详细的Python代码示例,包括图像预处理、小波分解、融合规则应用以及最终的图像重建。此外,还讨论了该技术在医学图像融合、遥感图像融合等领域的广泛应用前景。 适合人群:对图像处理感兴趣的初学者和有一定编程基础的研发人员。 使用场景及目标:适用于需要将多个来源的图像信息整合为一张更具信息量的图像的场合,如医学影像诊断、遥感数据分析等。通过学习本文,读者可以掌握基于小波变换的图像融合技术的基本原理和实现方法。 其他说明:文中提到的技术不仅限于医学图像,还可以应用于其他类型的图像融合任务。同时,文中提供的代码片段可以直接运行,帮助读者快速理解和实践相关概念。

  • 锂离子电池的电化学阻抗谱

    锂离子电池的电化学阻抗谱 关于数据集 在SoC为100%、90%、80%、70%、60%、50%、40%、30%、20%和10%的四个全新三星圆柱形ICR18650-26J可充电锂离子电池上测量了电化学阻抗谱(EIS)。对每个电池重复测量六次。其他电池的测量值将在可用时添加到数据集中。 请注意,当前数据集中的测量值不包括在同一作者的先前(链接)数据集中。 计算所有EIS频谱,测量频率为[0.05、0.1、0.2、0.4、1、2、4、10、20、40、100、200、400、1000]Hz的阻抗。 阻抗值的格式为:Re{Z}+Im{Z}j ###阻抗。csv文件 MEASURE_ID:每个EIS测量的唯一识别码 SOC:电池的充电状态 BATTERY_ID:电池的唯一识别码 FREQUENCY_ID:频率ID。查找frequencies.csv文件以获取赫兹值 IMPEDANCE_VALUE:测量的复阻抗值,单位为欧姆,格式为:(Re{Z}+Im{Z}j) 6个测量值x 4个电池x 10个SOC x 14个频率=3360个阻抗值(行) ###频率。csv文件 FREQUENCY_ID:频率识别码 FREQUENCY_VALUE:频率值,单位为赫兹

  • 2025年成都大学专升本计算机基础知识点模板.doc

    2025年成都大学专升本计算机基础知识点模板.doc

  • 开关电源辐射骚扰测试.zip

    开关电源辐射骚扰测试.zip

  • 组态王仿真学习案例:石灰石断烧系统详解,实时历史曲线记录、报表分析与报警管理一网打尽,入门到进阶全功能展示

    内容概要:本文详细介绍了利用组态王进行石灰石煅烧系统的仿真开发,涵盖实时曲线绘制、报警系统配置、报表生成功能等多个方面。文章从实际案例出发,通过具体的代码片段和操作步骤,讲解了如何实现温度PID控制、设备联锁、能源统计等功能。同时,作者分享了许多实践经验,如解决曲线不刷新问题、优化报警逻辑、提高报表生成效率等,帮助读者快速掌握组态王的核心技术和应用场景。 适合人群:对工业自动化感兴趣的初学者以及希望深入了解组态王使用的工程师。 使用场景及目标:适用于需要构建工业控制系统仿真模型的学习者或开发者,旨在通过实例演练提升对组态王的理解和运用能力,最终能够独立完成类似项目的开发。 其他说明:文中提供了丰富的代码示例和技术细节,有助于读者更好地理解和实践。此外,还特别强调了一些常见的错误和注意事项,如控件命名规范、数据源绑定规则等,确保项目顺利实施。

Global site tag (gtag.js) - Google Analytics