本地还是远程执行?
因为数据集通常是比较大的,所以你可以决定最适合你需要的执行机制。例如,如果你正在对大型训练数据集进行向量化,则可以在分布式spark集群中处理它。但是,如果需要进行实时推理,数据向量还提供不需要任何附加设置的本地执行器。
执行一个转换过程
一旦你已经用概要创建了你的转换过程,并且你已经加载你的数据到了一个 Apache Spark JavaRDD
或有一个记录读取器来加载你的数据集,你就可以执行一个转换了 。
本地执行如下:
import org.datavec.local.transforms.LocalTransformExecutor;
List<List<Writable>> transformed = LocalTransformExecutor.execute(recordReader, transformProcess)
List<List<List<Writable>>> transformedSeq = LocalTransformExecutor.executeToSequence(sequenceReader, transformProcess)
List<List<Writable>> joined = LocalTransformExecutor.executeJoin(join, leftReader, rightReader)
当使用Spark的时候看起来是这样子的:
import org.datavec.spark.transforms.SparkTransformExecutor;
JavaRDD<List<Writable>> transformed = SparkTransformExecutor.execute(inputRdd, transformProcess)
JavaRDD<List<List<Writable>>> transformedSeq = SparkTransformExecutor.executeToSequence(inputSequenceRdd, transformProcess)
JavaRDD<List<Writable>> joined = SparkTransformExecutor.executeJoin(join, leftRdd, rightRdd)
可用的执行器
LocalTransformExecutor 本地转换执行器
isTryCatch
public static boolean isTryCatch()
用给定的输入数据执行指定的转换过程
注意:这个方法仅在转换过程返回一个非序列数据的时候可以用。对于返回序列的转换过程,使用{- link #executeToSequence(List, TransformProcess)}
- 参数 inputWritables 是要处理的输入数据 Input data to process
- 参数 transformProcess 是要执行的转换过程
- 返回处理过的数据
SparkTransformExecutor Spark转换执行器
数spark的弹性数据集上执行一个数据向量转换过程
isTryCatch
public static boolean isTryCatch()
- 不赞成在SparkTransformExecutor用静态方法替代实例方法。
有任何问题请联系微信
如果您觉得我的文章给了您帮助,请为我买一杯饮料吧!以下是我的支付宝,意思一下我将非常感激!
相关推荐
赠送jar包:datavec-api-1.0.0-M1.1.jar; 赠送原API文档:datavec-api-1.0.0-M1.1-javadoc.jar; 赠送源代码:datavec-api-1.0.0-M1.1-sources.jar; 赠送Maven依赖信息文件:datavec-api-1.0.0-M1.1.pom; 包含...
赠送jar包:datavec-data-image-1.0.0-M1.1.jar; 赠送原API文档:datavec-data-image-1.0.0-M1.1-javadoc.jar; 赠送源代码:datavec-data-image-1.0.0-M1.1-sources.jar; 赠送Maven依赖信息文件:datavec-data-...
赠送jar包:datavec-api-1.0.0-M1.1.jar; 赠送原API文档:datavec-api-1.0.0-M1.1-javadoc.jar; 赠送源代码:datavec-api-1.0.0-M1.1-sources.jar; 赠送Maven依赖信息文件:datavec-api-1.0.0-M1.1.pom; 包含...
赠送jar包:datavec-data-image-1.0.0-M1.1.jar; 赠送原API文档:datavec-data-image-1.0.0-M1.1-javadoc.jar; 赠送源代码:datavec-data-image-1.0.0-M1.1-sources.jar; 赠送Maven依赖信息文件:datavec-data-...
数据载体DataVec是Apache 2.0许可的库,用于机器学习ETL(提取,转换,加载)操作。 DataVec的目的是将原始数据转换为可用的矢量格式,然后将其提供给机器学习算法。 通过向该存储库贡献代码,您同意根据Apache 2.0...
赠送jar包:deeplearning4j-datavec-iterators-1.0.0-M1.1.jar; 赠送原API文档:deeplearning4j-datavec-iterators-1.0.0-M1.1-javadoc.jar; 赠送源代码:deeplearning4j-datavec-iterators-1.0.0-M1.1-sources....
赠送jar包:deeplearning4j-datavec-iterators-1.0.0-M1.1.jar; 赠送原API文档:deeplearning4j-datavec-iterators-1.0.0-M1.1-javadoc.jar; 赠送源代码:deeplearning4j-datavec-iterators-1.0.0-M1.1-sources....
注:下文中的 *** 代表文件名中的组件名称。 # 包含: 中文-英文对照文档:【***-javadoc-API文档-中文(简体)-英语-对照版.zip】 jar包下载地址:【***.jar下载地址(官方地址+国内镜像地址).txt】 ...
注:下文中的 *** 代表文件名中的组件名称。 # 包含: 中文-英文对照文档:【***-javadoc-API文档-中文(简体)-英语-对照版.zip】 jar包下载地址:【***.jar下载地址(官方地址+国内镜像地址).txt】 ...
注:下文中的 *** 代表文件名中的组件名称。 # 包含: 中文-英文对照文档:【***-javadoc-API文档-中文(简体)-英语-对照版.zip】 jar包下载地址:【***.jar下载地址(官方地址+国内镜像地址).txt】 ...
deeplearning4j-examples:Deeplearning4j示例(DL4J,DL4J Spark,DataVec)-源码
(DL4J)生态系统是一组项目,旨在满足基于JVM的深度学习应用程序的所有需求。 这意味着从原始数据开始,从任何位置以任何格式加载和预处理原始数据,以构建和调整各种简单和复杂的深度学习网络。...
dl4j-examples-0.9.1.jar 深度学习示例,其中包括: •deeplearning4j-core,包含神经网络实现方法 •nd4j-native-platform,ND4J库的CPU版本,驱动DL4J •datavec-api - Datavec是我们的数据向量化和加载库
针对Java程式员所写的深度学习书籍,并使用DL4J, ND4J, DataVec等程式库,亚马遜预计2017年八月中出。
Although interest in machine learning has reached a high ...Use vectorization techniques for different data types with DataVec, DL4J’s workflow tool Learn how to use DL4J natively on Spark and Hadoop
deeplearning4j-docs Deeplearning4j及其所有库(DL4J,ND4J,Arbiter,DataVec等)的文档都位于此存储库中。 警告:请勿直接在此存储库中编辑用户指南。 提交将被还原。 请对主存储库进行更改,运行自动生成过程,...
Josh Patterson, Adam Gibson, "Deep Learning: A Practitioner'...Use vectorization techniques for different data types with DataVec, DL4J’s workflow tool Learn how to use DL4J natively on Spark and Hadoop
Deep Learning: A Practitioner's Approach by Josh Patterson ...Use vectorization techniques for different data types with DataVec, DL4J’s workflow tool Learn how to use DL4J natively on Spark and Hadoop
Dl4j学习率衰减策略,机器学习应用程序由两个部分组成。一个部分负责加载数据并对其进行预加工,以供网络学习。... 我们建立了名为DataVec 的库来简化这一流程。另一个部分则是实际的机器学习系统——这是DL4J的核心。
该程序与 DATEVEC 相同,但对秒进行四舍五入,因此消除了 60 秒未四舍五入值的问题。 它使用 DATAVEC 并在检查日期组件时需要一些时间。