我现在有一个本地运行的r代码。它由foreach部分组成,我使用%dopar%函数成功地将其并行化。我希望将这个循环从单个cpu上的并行化转换为hadoop服务器上的分发。
有人能告诉我一个合适的方法和我应该使用哪些软件包吗?
附加信息:我的hadoop设置是hortonworkshdp,我的foreach循环是令人尴尬的并行。我希望从本地并行化跳到集群分布以提高速度。只需要在集群上进行计算/处理(我的数据是本地的,而不是集群上的)。
我现在有一个本地运行的r代码。它由foreach部分组成,我使用%dopar%函数成功地将其并行化。我希望将这个循环从单个cpu上的并行化转换为hadoop服务器上的分发。
有人能告诉我一个合适的方法和我应该使用哪些软件包吗?
附加信息:我的hadoop设置是hortonworkshdp,我的foreach循环是令人尴尬的并行。我希望从本地并行化跳到集群分布以提高速度。只需要在集群上进行计算/处理(我的数据是本地的,而不是集群上的)。
1条答案
按热度按时间628mspwn1#
没有设计为使用hadoop的foreach后端。你可以用
doSNOW
,doParallel
,和doMPI
在集群的多个节点上执行foreach,但它们需要ssh或mpi/mpirun来启动远程节点上的worker。我不确定hadoop会玩得多好。有许多r包可以与hadoop一起工作(
RHIPE
,RHadoop
),但我不知道需要多少工作才能将您的r代码转换为使用它们。