hadoop在r中的并行化预测

uujelgoq  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(434)

我在r中使用预测模型,我在使用mgcv包。当前的预测模型采用gam。但是,使用r需要很多天,我想优化命令。
我正在研究hadoop和sparkr的并行性。我在sparkr上找到了predict命令,但我认为它没有gam。你能告诉我有没有什么方法可以运行我们在r中使用的predict,使用并行和gam吗?
换句话说,我可以使用(例如)4个节点的集群来运行下面的r代码吗?
ps:有可能使用azure、hdinsight
ps2:需要花费很多时间的代码(实际上只在r服务器上运行,只使用一台机器)

cl <- makeCluster(detectCores()-1)

predict_x <- predict("FORMULA_X", newdata=database_x, 
                     type="response", se=TRUE, cluster=cl)
``` `FORMULA_X` 以及 `database_x` 已经确定
bn31dyow

bn31dyow1#

如果你想用spark并行训练模型,你不能使用标准的r包,而是需要使用sparkmllib。以下是支持的算法列表:https://spark.apache.org/docs/latest/sparkr.html#machine-学习
您还可以尝试另一个支持并行性的r库:http://docs.h2o.ai/h2o/latest-stable/index.html
最复杂的选择是在spark中使用 RDD 或者 DataFrame 操作。
原因是您需要为支持并行性的培训模型提供专用的实现。

相关问题