阅读更多
近日,Databricks正式发布Spark 1.3版本。在此版本中,除下之前我们报道过的DataFrame API,此次升级还覆盖Streaming、ML、SQL等多个组件。当下,1.3版本已在 Apache Spark页面提供下载,下面一起浏览 Patrick Wendell在Databricks Blog上对Spark 1.3版本的概括。
Spark SQL脱离Alpha版本

在1.3版本中,Spark SQL正式脱离Alpha版本,提供了更好的SQL标准兼容。同时,Spark SQL数据源API亦实现了与新组件DataFrame的交互,允许用户直接通过Hive表格、Parquet文件以及一些其他数据源生成DataFrame。用户可以在同一个数据集上混合使用SQL和data frame操作符。新版本提供了从JDBC读写表格的能力,可以更原生地支持Postgres、MySQL及其他RDBMS系统。同时,该API还为JDBC(或者其他方式)连接的数据源生成输出表格提供写入支持。
> CREATE TEMPORARY TABLE impressions
USING org.apache.spark.sql.jdbc
OPTIONS (
url "jdbc:postgresql:dbserver",
dbtable "impressions"
)

> SELECT COUNT(*) FROM impressions

内置支持Spark Packages

在2014年底,我们着手为Spark建立一个新的社区项目目录站点——Spark Packages。当下,Spark Packages已经包含了开发者可以使用的45个社区项目,包括数据源集成、测试工具以及教程。为了更方便Spark用户使用,在Spark 1.3中,用户可以直接将已发布包导入Spark shell(或者拥有独立flag的程序中)。
# Launching Spark shell with a package
./bin/spark-shell --packages databricks/spark-avro:0.2 

Spark Packages 还为开发者建立了一个SBT插件来简化包的发布,并为发布包提供了自动地兼容性检查。

在Spark Streaming中提供了更低等级的Kafka支持

从过去发布的几个版本来看,Kafka已经成为Spark Streaming一个非常人气的输入源。Spark 1.3引入了一个新的Kakfa streaming source,它利用了Kafka的回放能力,在非预写日志配置下提供了一个更可靠的交付语义。同时,针对那些需求强一致性的应用程序,它还提供了实现了Exactly-Once Guarantees的原语。在Kafka的支持上,1.3版本还添加了一个Python API以及支持这个API的原语。

MLlib中的新算法

Spark 1.3还提供了大量的新算法。其中,Latent Dirichlet Allocation(LDA)成为了第一个出现在MLlib中的主题建模算法。在这之前,Spark的逻辑回归已经通过多元逻辑回归(multinomial logistic regression )支持多类分类(multiclass classification)。而在这个版本中,聚类再次被提升,Gaussian Mixture Models和 Power Iteration Clustering被引入。并通过FP-growth扩展了频繁项集挖掘(FIM,Frequent Itemsets Mining)。最后,MLlib还为Distributed Linear Algebra引入了有效的块矩阵抽象。
3
0
评论 共 1 条 请登录后发表评论
1 楼 YuHuang.Neil 2015-03-18 16:57
期待MLib的生产表现

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 非常SB的struts2.x异常(下篇)

    Line: 70 - org/apache/struts2/osgi/OsgiConfigurationProvider.java:70:-1  at org.apache.struts2.dispatcher.Dispatcher.init(Dispatcher.java:428)  at org.apache.struts2.dispatcher.ng.InitOperations...

  • 非常SB的struts2.x异常(上篇)

    学习struts2.2.1遭遇滑铁卢~~~~~好多异常~~~~~好多bug~~~~好多问题~~~~~~好多困难~~~好多肥羊~~~ 一、 Filter mapping specifies an unknown filter name ----filter标签在web.xml里的顺序    ...

  • Struts2之Session Token机制理解及使用

    源码都是前辈大牛的心血,无论是编码形式还是编码质量那都是相当的高,有这样一份珍贵的学习资料,你不看,你说你还看啥吧。 b)防止表单重复提交有很多方法,比如上一章的重定向就可以防止。不过在项目中一般我们有...

  • struts标签html:select,JSP_Struts标签 htmlselect option基本用法.doc

    Struts标签 htmlselect option基本用法验淹铂粤梁织辟莲劣吹琅腐啪瘦遣体紧恰谎川杭医憎蜂达郡排趟凄砧禄胃品携笆续粒宅捧观跌喷相氟翻鳞橇叁炮袜搐锑碧切磷锗辆捎巍麦柴煮安姜历趋墩末葛屠赤馁哥坊台褂凋裙诧曙聪诚...

  • struts

    struts 由于Struts框架在全球的广泛使用,学习它的人也非常之多,但是大部分人花费了太多不必要的时间和精力在一些不太重要的地方,导致学习代价高昂,成效也不是很好。我这里根据多年培训经验的总结,精心设计了...

  • 解析Struts中Result的配置

    Struts中,所有动作都需要配置结果

  • struts2 验证 类型转换问题

    struts2 学习旅程五: 这回开始讲输入校验. 以及使用Action里面写validate()方法.以及,全局和局部属性文件对错误提示信息的替换. 边整边说理论算了,一开始就讲,发现一下子记不到哪么多的说. 模拟一个用户注册信息...

  • Struts2 用拦截器实现最基本的登录权限认证。

    用struts2的interceptor做简单的访问权限验证。 struts配置文件方面嘛,两个文件: struts.xml <?xmlversion="1.0"encoding="UTF-8"?> <!DOCTYPEstrutsPUBLIC "-//...

  • struts2结合jquery的Ajax应用

    前言最近尝试在Google App Engine(GAE)平台上构建一个blog,目前进度已经完成将近50%,其中Css和DIV布局折腾得我够呛,对UI一向是个外行,色感拿捏实在没谱,只好仿造Wordpress了--_--||; 为何采用AJAX:回复是...

  • MyEclipse 8.0 GA 搭建 Struts2 + Spring2 + Hibernate3 (测试)

    听说MyEclipse 8.0 GA已经添加了对Struts2的支持,赶紧尝试一下!首先当然得创建个Web Project,一个空的Web Project就行然后是点鼠标左键6下:菜单栏“MyEclipse——Project Capabilities——Add Struts ...

  • struts2单元测试-2(使用EasyMock)

    1、之前我们的项目struts2版本是使用struts2.1.18,他使用struts2-junit-pugin-2.1.8.1.jar进行测试的时候完全可以,而且很方便,参考地址,http://gsdhaiji-cai.iteye.com/blog/1404230     2、坑爹的是,在一...

  • 老生长谈:B/S权限设计(基于Struts 2.*)

    现在的权限控制基本上都是基于RBAC的,在这里我是基于RBAC与Struts2.*,可能还有些没有完善的地方,提出来与大家讨论一下。   我们知道,权限一般分为操作权限跟数据权限,这里讨论的只是操作权限。其实与其说是...

  • Struts的心酸往事

    2002年初,Java服务器端技术正处于塑型阶段,MVC作为...关于Struts,还有点心酸往事……时值Struts 0.9版本发布之时,我正忙于设计公司新一代产品平台框架,期间也在参考Struts的设计思想(是时Struts尚未流行,各个

  • 员工考勤系统.docx

    员工考勤系统.docx

  • 基于STM32的调试模块的外设和时钟电路分析

    基于STM32的调试模块的外设和时钟电路分析。回顾 CMSIS、LL、HAL 库

  • 基于 UDP 的分布式毫米波雷达python代码.zip

    1.版本:matlab2014/2019a/2021a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

  • pyzmq-25.1.1b2-cp36-cp36m-musllinux_1_1_x86_64.whl

    Python库是一组预先编写的代码模块,旨在帮助开发者实现特定的编程任务,无需从零开始编写代码。这些库可以包括各种功能,如数学运算、文件操作、数据分析和网络编程等。Python社区提供了大量的第三方库,如NumPy、Pandas和Requests,极大地丰富了Python的应用领域,从数据科学到Web开发。Python库的丰富性是Python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径,而且为经验丰富的开发者提供了强大的工具,以高效率、高质量地完成复杂任务。例如,Matplotlib和Seaborn库在数据可视化领域内非常受欢迎,它们提供了广泛的工具和技术,可以创建高度定制化的图表和图形,帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

  • grpcio-1.7.0-cp35-cp35m-macosx_10_7_intel.whl

    Python库是一组预先编写的代码模块,旨在帮助开发者实现特定的编程任务,无需从零开始编写代码。这些库可以包括各种功能,如数学运算、文件操作、数据分析和网络编程等。Python社区提供了大量的第三方库,如NumPy、Pandas和Requests,极大地丰富了Python的应用领域,从数据科学到Web开发。Python库的丰富性是Python成为最受欢迎的编程语言之一的关键原因之一。这些库不仅为初学者提供了快速入门的途径,而且为经验丰富的开发者提供了强大的工具,以高效率、高质量地完成复杂任务。例如,Matplotlib和Seaborn库在数据可视化领域内非常受欢迎,它们提供了广泛的工具和技术,可以创建高度定制化的图表和图形,帮助数据科学家和分析师在数据探索和结果展示中更有效地传达信息。

  • 免费的浏览器内JSON到 CSV 转换器

    在处理 JSON 数据时,尤其是为了便于分析和共享,常常需要将其转换为 CSV 格式。免费的浏览器内 JSON 到 CSV 转换器为用户提供了简便而高效的方法来完成这一任务,无需额外的软件安装。这些工具通常基于 JavaScript,直接在浏览器中运行,适合开发者、数据分析师及其他需要转换数据格式的用户。 ### **免费 JSON 到 CSV 转换器的概述** **功能介绍** 1. **无安装要求** - **浏览器运行**:无需下载或安装任何软件,用户只需通过浏览器访问相应的在线工具,即可进行 JSON 到 CSV 的转换。 - **跨平台支持**:兼容 Windows、macOS、Linux 等操作系统,以及各种浏览器(如 Chrome、Firefox、Edge)。 2. **用户界面** - **简洁直观**:通常提供一个简单的文本框用于输入或粘贴 JSON 数据,并带有一个按钮或选项来触发转换。 - **即时转换**:点击转换按钮后,立即生成 CSV 数据,并提供下载链接或直接显示转换结果,便于复制或导出。 3. **支持大部分 JSON

  • miflash_unlock.zip

    miflash_unlock.zip

Global site tag (gtag.js) - Google Analytics