`
deepfuture
  • 浏览: 4332718 次
  • 性别: Icon_minigender_1
  • 来自: 湛江
博客专栏
073ec2a9-85b7-3ebf-a3bb-c6361e6c6f64
SQLite源码剖析
浏览量:79404
1591c4b8-62f1-3d3e-9551-25c77465da96
WIN32汇编语言学习应用...
浏览量:68361
F5390db6-59dd-338f-ba18-4e93943ff06a
神奇的perl
浏览量:101484
Dac44363-8a80-3836-99aa-f7b7780fa6e2
lucene等搜索引擎解析...
浏览量:281140
Ec49a563-4109-3c69-9c83-8f6d068ba113
深入lucene3.5源码...
浏览量:14597
9b99bfc2-19c2-3346-9100-7f8879c731ce
VB.NET并行与分布式编...
浏览量:65552
B1db2af3-06b3-35bb-ac08-59ff2d1324b4
silverlight 5...
浏览量:31311
4a56b548-ab3d-35af-a984-e0781d142c23
算法下午茶系列
浏览量:45199
社区版块
存档分类
最新评论

R-并行计算

阅读更多

啊。。。找了一下,R 居然真的有办法可以多cpu平行运算!!!snowfall包!先在这里寄存一下。明天实验。太棒了!

转贴自:不周山

R本身虽然只能以单线程的方式运行与计算,但它有大量的包提供了方便而多样的并行计算方式,支持包括SOCKET、MPI、PVM、NWS等等多种 线程沟通方式。最流行最成熟的当然是MPI了,Rmpi包也因此相当受欢迎,在它的基础上可以实现各种MPI支持的并行编程范式。但要论简单易用,支持协 议的多样性,就得说说snow包及其简化包装版snowfall包了。snow支持上面提到的四种线程沟通协议,所以即使没有安装MPI或者对MPI了解 不多,最基本的也可以直接使用SOCKET方式快速上手。而有了snowfall,更是使得并行化的计算变得如同平常编程一般的简单。

由于这些包是为R而扩展的,所以跟R的矢量式编程思想能无缝地结合,只要你的程序已经用矢量化语言描述出来(比如R的apply系列函数或简单矩阵运算),再移植到snowfall并行计算平台几乎就是0成本。

下面通过两个简单的函数来说明snowfall的使用及其性能。在运行测试函数之前都需要先载入snowfall包,即library(snowfall)

测试函数1:

   

foo <- function(i){
cat(sprintf('log: item %s', i))
return(2^i)
}
test.base <- function(){
x = 1:10
sfInit(parallel=TRUE, cpus=2, slaveOutfile='snowfall.log')
sfExport('foo')
res = sfClusterApplyLB(x, fun='foo')
sfStop()
cat(unlist(res))
}

这个函数说明了snowfall包的基本使用:

  1. 先通过第7行代码初始化计算集群,参数分明指明了运行并行模式、使用本地的两个cpu作运算、定位各slave的日志输出;
  2. 第8行代码把foo这个函数发布到各slave;
  3. 第9行代码把x传给foo函数计算,对x这个向量中不同的元素作并行,这里sfClusterApplyLB的作用类似于R里的apply函数;
  4. 第10行停止计算集群;
  5. 第2行的打印信息会输出到slaveOutfile指定的日志文件中。

测试函数2:

 
mysort <- function(x){
replicate(5, sort(x))
 return(sort(x)[1:10])
}
test.apply <- function(cpus=4){
M = matrix(rnorm(10000000), 100, 100000)
print('sequence run:')
print(system.time(x<-apply(M, 2, mysort)))
t = Sys.time()
# sfInit(parallel=TRUE, socketHosts=c(rep('balin',2), rep('dwalin',2)))
sfInit(parallel=TRUE, cpus=cpus)
print(sprintf('%s cpus to be used', sfCpus()))
print('parallel time cost:')
print(system.time(x<-sfApply(M, 2, mysort)))
sfStop()
print(paste('total parallel time cost:', Sys.time()-t))
}

这个函数展示了一个实际的有一定负载量的计算过程。

  1. 第6行生成一个100*100000的测试矩阵M;
  2. 第8行对M的每一列应用mysort这个函数,mysort函数在上面有定义,除了排序之外,还做了一些额外的无用功,增加计算负载,这是单线程计算范式,用于作对比;
  3. 第14行进行实际计算,作用跟第8行一样,不同之处在于这里是利用并行计算范式进行计算,使用的slave数量由cpus参数指定;
  4. 可以尝试拿第10行置换第11行,第11行是单机多核并行,第10行是多机多核并行,各机器使用cpu的数量由socketHosts里该机器名出现次数而定(balin和dwalin都是机器名);
  5. 在使用同样多的slave的情况下,多机多核通常会比单机多核要慢一点,因为涉及到网络IO。

测试函数2的性能测试如下:

  • 非并行情况下,总耗时31秒多;
  • 2 slave的情况下,总耗时22秒多;
  • 4 slave的情况下,总耗时接近15秒。
  • 补:在sfInit函数初始化时,设置type=’MPI’,使用MPI方式并行,4 slave情况下,比SOCKET方式稍慢,耗时17秒多。

即slave增加4倍时,计算时间减少一半。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics