用rhadoop实现r多核计算

jaxagkaj 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(403)

我试着用rhadoop（r和hadoop之间的链接）计算一些东西。
当我用hadoop-1.0.4中的嵌入式示例对集群进行基准测试时，它看起来运行得很好我的意思是所有从节点的核心都工作了，尽管cpu使用率在50%到100%之间波动
然而，当我应用rhadoop的一个例子时，情况并非如此(每个从属节点只有一个核心被激活。）
在rhadoop中是否有我必须设置的配置？（就像我对hadoop的配置文件如core site.xml所做的那样）
谢谢

hadoop r rhadoop multicore

来源：https://stackoverflow.com/questions/15334366/multicore-computing-with-rhadoop

1条答案

按热度按时间

wgx48brx1#

您可能在谈论rmr2，它是rhadoop的一部分。rmr2对此没有特定的配置。 help(rmr.options) 将显示所有配置选项。map任务和map槽的数量决定了map阶段的并行度。听起来你的位置够多了。所以map任务的数量可能不够。它可能取决于输入的大小和其他属性。可以向mapreduce传递一个附加参数 backend.parameters = list(hadoop = list(D = 'mapred.map.tasks')) 但是hadoop不尊重这个设置，只是把它当作一个提示。这个 backend.parameters 参数已弃用，但当它被删除时，将为此特定目标提供一些替代机制。如果问题处于reduce阶段，则密钥集的基数也很重要（它设置了并行度的上限）。我同意保罗的观点，如果你提供了一个可复制的例子，我的答案将包含更少的猜测。rhadoop有一个专门的论坛，开发者和用户可以在这里活动https://groups.google.com/forum/?fromgroups=#!论坛/rhadoop

赞(0）回复(0）举报 2021-06-03

我来回答

用rhadoop实现r多核计算

1条答案

相关问题

热门标签

最新问答