hadoop在r中的并行化预测

uujelgoq 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(434)

我在r中使用预测模型，我在使用mgcv包。当前的预测模型采用gam。但是，使用r需要很多天，我想优化命令。
我正在研究hadoop和sparkr的并行性。我在sparkr上找到了predict命令，但我认为它没有gam。你能告诉我有没有什么方法可以运行我们在r中使用的predict，使用并行和gam吗？
换句话说，我可以使用（例如）4个节点的集群来运行下面的r代码吗？
ps：有可能使用azure、hdinsight
ps2：需要花费很多时间的代码（实际上只在r服务器上运行，只使用一台机器）

cl <- makeCluster(detectCores()-1)

predict_x <- predict("FORMULA_X", newdata=database_x, 
                     type="response", se=TRUE, cluster=cl)
``` `FORMULA_X` 以及 `database_x` 已经确定

hadoop apache-spark parallel-processing r predict

来源：https://stackoverflow.com/questions/44638438/parallelize-predict-in-r

1条答案

按热度按时间

bn31dyow1#

如果你想用spark并行训练模型，你不能使用标准的r包，而是需要使用sparkmllib。以下是支持的算法列表：https://spark.apache.org/docs/latest/sparkr.html#machine-学习
您还可以尝试另一个支持并行性的r库：http://docs.h2o.ai/h2o/latest-stable/index.html
最复杂的选择是在spark中使用 RDD 或者 DataFrame 操作。
原因是您需要为支持并行性的培训模型提供专用的实现。

赞(0）回复(0）举报 2021-06-01

我来回答

hadoop在r中的并行化预测

1条答案

相关问题

热门标签

最新问答