我´我正在使用1.3.1版本的小型spark集群(5个datanodes和2个namenodes)。我在伯克利的一个博客上读到这样一篇文章:
https://amplab.cs.berkeley.edu/large-scale-data-analysis-made-easier-with-sparkr/
它在哪里´详细介绍了如何利用sparkr实现梯度下降;通过sparkr方法lapplypartition并行运行用户定义的梯度函数。如果lapplypartition使用户定义的梯度函数在每个节点上执行,那么我猜在用户定义的梯度函数中使用的所有方法也应该在每个节点上可用。也就是说,r及其所有包应该安装在每个节点上。我理解得好吗?
如果是这样,有没有办法管理r包?现在我的集群很小,所以我们可以手动完成,但我猜那些拥有大集群的人不会这样做。有什么建议吗?
谢谢!
暂无答案!
目前还没有任何答案,快来回答吧!