我们正在寻找建立一个计算节点集群,用于深度学习模型培训作业,其中一些在云端,另一些在本地,其中包含nvidia gpu。我们认为使用mesos和frameworkmarathon(m&m)将是我们安排集群的最佳选择。但是(m&m)的文档似乎非常模糊(或者至少对我来说,对不起我是实习生),我遇到了很多关于zookeeper和节点之间的连接的问题。
另外,在教程和文档方面,mesosphere似乎对dc/os给予了更多的重视,我猜它也将更经常地进行修补,其界面(gui和cli)看起来更加友好。
所以我想知道,如果放弃探索(m&m)而转向dc/os,我们会不会失去对集群的大量控制?在m&m中,我们有没有在dc/os的开源版本中无法提供的特权?比如监控机器,记录结果等等。。如果我问我的经理,我们可能也会得到企业版,所以这不是一个真正的问题,但是dc/os是否应用了一个抽象层,这对高级用户来说并不是很好?
1条答案
按热度按时间pb3s4cty1#
dc/os是围绕ApacheMesos和marathon构建的,为zookeeper、网络等提供了良好的默认设置。。。。因此,在我看来,这是一个很好的开始,因为您仍然可以使用所有的m&m和mesos功能+dc/os功能和易于安装。
免责声明:我为中层工作。