R-并行计算

deepfuture

浏览: 4332718 次
性别:
来自: 湛江

最近访客更多访客>>

linxl2011

mars36

jccz_zys

zkm0309

博主相关

博客

微博

相册

留言

关于我

博客专栏

: SQLite源码剖析
浏览量：79404

: WIN32汇编语言学习应用...
浏览量：68361

: 神奇的perl
浏览量：101484

: lucene等搜索引擎解析...
浏览量：281140

: 深入lucene3.5源码...
浏览量：14597

: VB.NET并行与分布式编...
浏览量：65552

: silverlight 5...
浏览量：31311

: 算法下午茶系列
浏览量：45199

文章分类

社区版块

存档分类

博客分类：

数学与计算

啊。。。找了一下，R 居然真的有办法可以多cpu平行运算！！！snowfall包！先在这里寄存一下。明天实验。太棒了！

转贴自：不周山

R本身虽然只能以单线程的方式运行与计算，但它有大量的包提供了方便而多样的并行计算方式，支持包括SOCKET、MPI、PVM、NWS等等多种线程沟通方式。最流行最成熟的当然是MPI了，Rmpi包也因此相当受欢迎，在它的基础上可以实现各种MPI支持的并行编程范式。但要论简单易用，支持协议的多样性，就得说说snow包及其简化包装版snowfall包了。snow支持上面提到的四种线程沟通协议，所以即使没有安装MPI或者对MPI了解不多，最基本的也可以直接使用SOCKET方式快速上手。而有了snowfall，更是使得并行化的计算变得如同平常编程一般的简单。

由于这些包是为R而扩展的，所以跟R的矢量式编程思想能无缝地结合，只要你的程序已经用矢量化语言描述出来（比如R的apply系列函数或简单矩阵运算），再移植到snowfall并行计算平台几乎就是0成本。

下面通过两个简单的函数来说明snowfall的使用及其性能。在运行测试函数之前都需要先载入snowfall包，即library(snowfall)

测试函数1：

foo <- function(i){
cat(sprintf('log: item %s', i))
return(2^i)
}
test.base <- function(){
x = 1:10
sfInit(parallel=TRUE, cpus=2, slaveOutfile='snowfall.log')
sfExport('foo')
res = sfClusterApplyLB(x, fun='foo')
sfStop()
cat(unlist(res))
}

这个函数说明了snowfall包的基本使用：

先通过第7行代码初始化计算集群，参数分明指明了运行并行模式、使用本地的两个cpu作运算、定位各slave的日志输出；
第8行代码把foo这个函数发布到各slave；
第9行代码把x传给foo函数计算，对x这个向量中不同的元素作并行，这里sfClusterApplyLB的作用类似于R里的apply函数；
第10行停止计算集群；
第2行的打印信息会输出到slaveOutfile指定的日志文件中。

测试函数2：

mysort <- function(x){
replicate(5, sort(x))
 return(sort(x)[1:10])
}
test.apply <- function(cpus=4){
M = matrix(rnorm(10000000), 100, 100000)
print('sequence run:')
print(system.time(x<-apply(M, 2, mysort)))
t = Sys.time()
# sfInit(parallel=TRUE, socketHosts=c(rep('balin',2), rep('dwalin',2)))
sfInit(parallel=TRUE, cpus=cpus)
print(sprintf('%s cpus to be used', sfCpus()))
print('parallel time cost:')
print(system.time(x<-sfApply(M, 2, mysort)))
sfStop()
print(paste('total parallel time cost:', Sys.time()-t))
}

这个函数展示了一个实际的有一定负载量的计算过程。

第6行生成一个100*100000的测试矩阵M；
第8行对M的每一列应用mysort这个函数，mysort函数在上面有定义，除了排序之外，还做了一些额外的无用功，增加计算负载，这是单线程计算范式，用于作对比；
第14行进行实际计算，作用跟第8行一样，不同之处在于这里是利用并行计算范式进行计算，使用的slave数量由cpus参数指定；
可以尝试拿第10行置换第11行，第11行是单机多核并行，第10行是多机多核并行，各机器使用cpu的数量由socketHosts里该机器名出现次数而定（balin和dwalin都是机器名）；
在使用同样多的slave的情况下，多机多核通常会比单机多核要慢一点，因为涉及到网络IO。

测试函数2的性能测试如下：

非并行情况下，总耗时31秒多；
2 slave的情况下，总耗时22秒多；
4 slave的情况下，总耗时接近15秒。
补：在sfInit函数初始化时，设置type=’MPI’，使用MPI方式并行，4 slave情况下，比SOCKET方式稍慢，耗时17秒多。

即slave增加4倍时，计算时间减少一半。

分享到：

wxwidgets学习心得（1） | gtk+学习笔记-2

2013-04-28 10:50
浏览 6061
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

R-并行计算

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

R-并行计算

评论

发表评论

相关推荐

R语言与数据分析

机器学习实践指南：案例应用解析

matlab-矩阵合并

人工智能与数据分析所需要的知识

麦哈普的AI乐园【myhaspl@qq.com】我的另一个博客（机器学习、数据分析、智能计算的原创）

谱聚类

对变化建模-用差分方程-动力系统及常数解

逻辑斯蒂映射-伪随机数

matlab-多项式乘除法及式子和导数

matlab-数组-元胞数据与结构数组

矩阵-范数

向量-范数

矩阵-求逆

lisp-猜数字算法与全局函数、变量

开源 Lisp 相关项目

四分位数求法

matlab-神经网络-自定义多层感知器解决异或(2)

matlab-神经网络-自定义多层感知器解决异或(1)

matlab-模态对话框

matlab-gui activex

最近访客更多访客>>