啊。。。找了一下,R 居然真的有办法可以多cpu平行运算!!!snowfall包!先在这里寄存一下。明天实验。太棒了!
转贴自:不周山
R本身虽然只能以单线程的方式运行与计算,但它有大量的包提供了方便而多样的并行计算方式,支持包括SOCKET、MPI、PVM、NWS等等多种 线程沟通方式。最流行最成熟的当然是MPI了,Rmpi包也因此相当受欢迎,在它的基础上可以实现各种MPI支持的并行编程范式。但要论简单易用,支持协 议的多样性,就得说说snow包及其简化包装版snowfall包了。snow支持上面提到的四种线程沟通协议,所以即使没有安装MPI或者对MPI了解 不多,最基本的也可以直接使用SOCKET方式快速上手。而有了snowfall,更是使得并行化的计算变得如同平常编程一般的简单。
由于这些包是为R而扩展的,所以跟R的矢量式编程思想能无缝地结合,只要你的程序已经用矢量化语言描述出来(比如R的apply系列函数或简单矩阵运算),再移植到snowfall并行计算平台几乎就是0成本。
下面通过两个简单的函数来说明snowfall的使用及其性能。在运行测试函数之前都需要先载入snowfall包,即library(snowfall)
测试函数1:
foo <- function(i){ cat(sprintf('log: item %s', i)) return(2^i) } test.base <- function(){ x = 1:10 sfInit(parallel=TRUE, cpus=2, slaveOutfile='snowfall.log') sfExport('foo') res = sfClusterApplyLB(x, fun='foo') sfStop() cat(unlist(res)) } |
这个函数说明了snowfall包的基本使用:
- 先通过第7行代码初始化计算集群,参数分明指明了运行并行模式、使用本地的两个cpu作运算、定位各slave的日志输出;
- 第8行代码把foo这个函数发布到各slave;
- 第9行代码把x传给foo函数计算,对x这个向量中不同的元素作并行,这里sfClusterApplyLB的作用类似于R里的apply函数;
- 第10行停止计算集群;
- 第2行的打印信息会输出到slaveOutfile指定的日志文件中。
测试函数2:
mysort <- function(x){ replicate(5, sort(x)) return(sort(x)[1:10]) } test.apply <- function(cpus=4){ M = matrix(rnorm(10000000), 100, 100000) print('sequence run:') print(system.time(x<-apply(M, 2, mysort))) t = Sys.time() # sfInit(parallel=TRUE, socketHosts=c(rep('balin',2), rep('dwalin',2))) sfInit(parallel=TRUE, cpus=cpus) print(sprintf('%s cpus to be used', sfCpus())) print('parallel time cost:') print(system.time(x<-sfApply(M, 2, mysort))) sfStop() print(paste('total parallel time cost:', Sys.time()-t)) } |
这个函数展示了一个实际的有一定负载量的计算过程。
- 第6行生成一个100*100000的测试矩阵M;
- 第8行对M的每一列应用mysort这个函数,mysort函数在上面有定义,除了排序之外,还做了一些额外的无用功,增加计算负载,这是单线程计算范式,用于作对比;
- 第14行进行实际计算,作用跟第8行一样,不同之处在于这里是利用并行计算范式进行计算,使用的slave数量由cpus参数指定;
- 可以尝试拿第10行置换第11行,第11行是单机多核并行,第10行是多机多核并行,各机器使用cpu的数量由socketHosts里该机器名出现次数而定(balin和dwalin都是机器名);
- 在使用同样多的slave的情况下,多机多核通常会比单机多核要慢一点,因为涉及到网络IO。
测试函数2的性能测试如下:
- 非并行情况下,总耗时31秒多;
- 2 slave的情况下,总耗时22秒多;
- 4 slave的情况下,总耗时接近15秒。
- 补:在sfInit函数初始化时,设置type=’MPI’,使用MPI方式并行,4 slave情况下,比SOCKET方式稍慢,耗时17秒多。
即slave增加4倍时,计算时间减少一半。
相关推荐
但每个零模型的构建相互独立,可同时进行,R语言并行计算可加快beta-NTI的计算速度。本文内容包括以下三个部分:1.如何理解群落构建;2.如何理解beta-NTI;3.如何利用R语言并行计算beta-NTI。初学者可能对群落构建和...
R语言 并行计算 向量是R语言最基本的数据类型,它的下标从1开始,正的下标用于提取向量中对应的元素,负的下标则去掉向量中对应的元素,通过逻辑运算提出向量中满足条件的元素
之前我们介绍了计算beta-NTI(beta nearest taxon index)来进行群落构建分析。|beta-NTI| >2说明决定性过程主导,其中beta-NTI >2说明OTU的遗传距离发散,为生物交互作用主导,beta-NTI < -2则说明OUT的遗传距离...
R语言-多线程并行计算原理与操作步骤-方法笔记
R语言使用parallel包实现并行计算的方法、案例简介总结
基于Web的Java并行计算,基于Web的Java并行计算
当你用matlab并行计算工具箱时,是不是有一大堆的命令要去配置,而且配置好长时间也不一定能搞定,心想matlab这哥们太不给力了,用你的东西都这么困难。 Matlab不给力,我给力,呵呵,做了一个界面的配置工具,可以...
本书成功地借助于R语言实现了并行计算的多种有效算法,并且通过案例分析了如何运用R语言执行并行计算。同时详细介绍了并行计算中的R程序包的使用,如SPRINT包提供了一套从R中调用并行计算的MPI函数。全书案例简单...
对spearman相关性分析进行并行化运行可大大节省计算时间,为此我们手写了spearman相关性分析函数来实现并行化运行。为方便讲解,本文以OTU table 数据为例,对OTU进行两两spearman相关性分析,获得相关系数r和显著性...
之前我们介绍了计算beta-NTI(beta nearest taxon index)来进行群落构建分析,但利用beta-NTI推测群落构建有一个前提条件,即系统发育树必须要有遗传信号(phylogenetic signal),但某些功能基因(例如nifH)的...
每一次遇到问题和解决问题都是一种锻炼,一种尝试,从我们上并行计算课我懂得了很多电脑硬件和软件的知识,这些可能对于我们这个专业以后都是没有机会接触的,所以我觉得选择了并行计算与多核多线程技术这门课是非常...
基于R的并行统计计算.pdf
《R并行编程实战》是一本构建大规模高效算法的综合性实用书籍,介绍各种并行技术,对于你的项目,你将了解如何为适合的并行类型构建代码和数据;如何在各种计算机系统中运行R代码获取佳性能。
SupR:让R语言走向多线程并行计算.pdf
2009年基于分区技术的静态R树索引并行计算技术.pdf
每一次遇到问题和解决问题都是一种锻炼,一种尝试,从我们上并行计算课我懂得了很多电脑硬件和软件的知识,这些可能对于我们这个专业以后都是没有机会接触的,所以我觉得选择了并行计算与多核多线程技术这门课是非常...
行业分类-设备装置-在交互式R语言平台中进行并行线性代数计算的方法.zip
通过感兴趣区域池化层处理卷积特征,并将得到的特征送往两个并行计算任务进行训练,分类和定位回归。通过这些方法和改进的框架,Fast R-CNN 用更短的训练和测试时长,取得了比 R-CNN 更好的效果
12:30:并行计算的最佳实践(Pete Ruprecht) 12:30 pm - 01:30 pm:午餐01:30 pm - 03:30 pm:在并行计算中使用 Slurm (Pete Ruprecht) 03:30 pm - 03:45 pm:休息03:45 pm - 04:45 pm:分析您的代码(Thomas ...
一种并行计算方法,是利用具有多个处理器的并行计算机的计算 方法,其特征在于: 在从双电子积分的原子轨道基层rs|tu向分子轨道基层ab|cd变换 时,对于上述多个处理器,指定应计算的原子轨道的标记r与s,并在上述 多...