在hadoop服务器上分发r处理

jecbmhm3  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(400)

我现在有一个本地运行的r代码。它由foreach部分组成,我使用%dopar%函数成功地将其并行化。我希望将这个循环从单个cpu上的并行化转换为hadoop服务器上的分发。
有人能告诉我一个合适的方法和我应该使用哪些软件包吗?
附加信息:我的hadoop设置是hortonworkshdp,我的foreach循环是令人尴尬的并行。我希望从本地并行化跳到集群分布以提高速度。只需要在集群上进行计算/处理(我的数据是本地的,而不是集群上的)。

628mspwn

628mspwn1#

没有设计为使用hadoop的foreach后端。你可以用 doSNOW , doParallel ,和 doMPI 在集群的多个节点上执行foreach,但它们需要ssh或mpi/mpirun来启动远程节点上的worker。我不确定hadoop会玩得多好。
有许多r包可以与hadoop一起工作( RHIPE , RHadoop ),但我不知道需要多少工作才能将您的r代码转换为使用它们。

相关问题