阅读更多
Fregata是TalkingData开源的一个基于Spark的轻量级、超快速的大规模机器学习库,并在Scala中提供高级API。

显著特征:
  • 更加准确:Fregata的精确度要高于MLLib;
  • 高速度:对于广义线性模型,Fregata通常汇合在一个数据历元。对于10亿*10亿的数据集,Fregata可以在1分钟内使用内存缓存或10分钟完成一个广义线性模型训练,速度要比MLLib快10-100倍;
  • 参数自由:Fregata使用GSA SGD优化,无需学习速率调整,原因是研发团队找到了一种在训练过程中计算学习速率的方法。当面对超高维问题时,Fregata会动态计算剩余内存来确定输出的稀疏性,自动平衡精度和效率;
  • 轻量:Fregata只使用了Spark的标准API即可快速、无缝地集成到Spark上的大多数业务数据处理流程中。

架构

这里主要介绍1.0版本架构。核心部分主要基于GSA独立算法实现,包括分类,回归和聚类:
  • 分类:支持二进制和多重分类
  • 回归:在下面的版本中发布
  • 聚类:在下面的版本中发布

Spark:主要通过封装core.jar实现基于Spark的大规模机器学习算法,并提供相应的算法。

如何安装及快速入门,大家可以访问其在Github上的开源地址
引用

130+位讲师,16大分论坛,中国科学院院士陈润生、滴滴出行高级副总裁章文嵩、联想集团高级副总裁兼CTO芮勇、上交所前总工程师白硕等专家将亲临2016中国大数据技术大会,票价折扣即将结束,预购从速



  • 大小: 252.7 KB
0
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 轻量级大规模机器学习算法库Fregata开源:快速,无需调参

    12年大规模机器学习和数据挖掘经验,对推荐系统、计算广告、大规模机器学习算法并行化、流式机器学习算法有很深的造诣;在国际顶级会议和期刊上发表论文12篇,申请专利9项;前IBM CRL、腾讯、华为诺亚方舟实验室数据...

  • [转]轻量级大规模机器学习算法库Fregata开源

    轻量级大规模机器学习算法库Fregata开源:快速,无需调参 http://geek.csdn.net/news/detail/129806作者:张夏天,TalkingData首席数据科学家。12年大规模机器学习和数据挖掘经验,对推荐系统、计算广告、大规模...

  • Fregata 机器学习算法库开源:快速,无需调参

    大规模机器学习的挑战 随着互联网,移动互联网的兴起,可以获取的数据变得越来越多,也越来越丰富。数据资源的丰富,给机器学习带来了越来越多,越来越大创造价值的机会。 机器学习在计算广告,推荐系统这些价值上...

  • Fregata使用简介

    最近TalkingData开源了Fregata,Fregata的主要作用是加速基于spark的机器学习的计算速度,据说10亿*10亿级别的数据如果缓存到内存中的话用1s钟就可以算完,如果不缓存的话,十秒钟搞定,如果这么来的话,那真是碉堡...

  • 【CSDN AI 周刊】No. 004 | 2017年深度学习十大趋势预测

    若您有希望与业界分享的AI实施案例、资料整理、学习笔记、趣闻妙谈,请发送邮件至wangyi@csdn.net,期待您的声音。2017年深度学习十大趋势预测本文作者曾经多次预测了技术发展的趋势,最近的一次预测是“2011年软件...

  • 开源大数据周刊-第34期

    轻量级大规模机器学习算法库Fregata开源 Fregata是TalkingData开源的大规模机器学习算法库,基于Spark,目前支持Spark 1.6.x, 很快会支持Spark 2.0。目前Fregata包括了Logistic Regression, Softmax, 和Random ...

  • 2016年大数据80篇爆款文章:这一年你追过的那些技术

    回过头来我们看看这一年的脚印,这里我按照文章内容做了一次汇总,分为:流处理、机器学习、用户画像、数据驱动、Hadoop、Apache Spark、Apache Kylin、Druid、推荐系统和大数据平台架构。 流处理 2016年流式...

  • 2017年深度学习十大趋势预测

    2017年深度学习十大趋势预测 本文作者曾经多次预测了技术发展的趋势,最近的一次预测是“2011年软件发展的趋势与预测”。10项预言中,准确地命中了6项,比如JavaScript VM、NoSQL、大数据分析、私有云、Scala...

  • ArchSummit2016干货分享+美团:即时物流调度平台实践+一点资讯:兴趣引擎-深度融合搜索和推荐+阿里-智能问答系统的实践

    ThinkData:Fregata- Spark上的轻量级大规模机器学习算法库 已开源: https://github.com/TalkingData/Fregata 基于Spark实现的分布式机器学习算法库,目前只有几个基础的模型(LR、softmax、RDT),声称相比MLlib...

  • node-v7.7.2-linux-x86.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

  • 前后端分离的毕业论文(设计)管理系统 (SpringBoot+Vue)

    关于基于SpringBoot和Vue的毕业论文(设计)管理系统,到了一些相关的资源和示例项目,这些资源可能对您的毕业设计有所帮助。 1. **SpringBoot+Vue的三只松鼠商城**: 这个项目是一个基于SpringBoot和Vue的在线购物系统,采用了前后端分离的架构模式。系统实现了管理员模块和用户模块,包括用户管理、地址管理、订单管理、商品管理、支付功能等。这个项目是一个B2C电商平台,使用了MySQL和Redis数据库。 2. **大学生校园社团管理系统**: 这是一个基于SpringBoot和Vue的校园社团管理系统,旨在简化社团报名和组织活动的流程。系统包括用户管理、社团管理、活动信息管理等功能。该项目展示了如何使用前后端分离架构来构建一个校园社团管理系统。 3. **智慧宿舍管理系统**: 这个项目是基于SpringBoot和Vue的智慧宿舍管理系统,旨在提高宿舍管理的效率和便利性。系统包括学生宿舍信息管理、设备监控、安全管理和生活服务等功能。该项目展示了如何使用前后端分离架构来构建一个智能宿舍管理系统。 这些项目可以为您的毕业设计提供灵感和实际的技术指导。您可以

  • 238.html

    238.html

  • 基于tensorflow深度学习的地理位置的命名实体识别.zip

    基于tensorflow深度学习的地理位置的命名实体识别.zip

  • 优秀项目 基于STM32单片机+Python+OpenCV的二自由度人脸跟踪舵机云台源码+详细文档+全部数据资料.zip

    【资源说明】 优秀项目 基于STM32单片机+Python+OpenCV的二自由度人脸跟踪舵机云台源码+详细文档+全部数据资料.zip 【备注】 1、该项目是个人高分项目源码,已获导师指导认可通过,答辩评审分达到95分 2、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 3、本项目适合计算机相关专业(如软件工程、计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也可作为毕业设计、课程设计、作业、项目初期立项演示等,当然也适合小白学习进阶。 4、如果基础还行,可以在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!

  • 文件I/O基础-I.MX6U嵌入式Linux C应用编程学习笔记基于正点原子阿尔法开发板

    文件I/O基础-I.MX6U嵌入式Linux C应用编程学习笔记基于正点原子阿尔法开发板

  • 基于深度神经网络的图像分类任务.zip

    基于深度神经网络的图像分类任务.zip

  • 强化学习基准代码,已经针对Tensoflow2.x版本修改,可以直接使用

    强化学习基准代码,已经针对Tensoflow2.x版本修改,可以直接使用

  • node-v7.7.4-linux-ppc64.tar.xz

    Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。

  • DZT0227-2010 地质岩心钻探规程.pdf

    DZT0227-2010 地质岩心钻探规程.pdf

Global site tag (gtag.js) - Google Analytics