hpc作业研究和硬件利用率报告

e4eetjau 于 2021-06-26 发布在 Mesos

关注(0)|答案(2)|浏览(420)

我很难找到一份关于普通hpc集群平均硬件利用率的综合报告。谷歌（google）或facebook提供了各种关于云硬件利用率的数据集，但我是否可以从hpc中心引用或查看任何类似的报告/数据集。
我的重点是看动态和长尾工作将如何受到影响，如果他们通过粗粮资源管理，如slurm，或扭矩运行。我知道这两个资源管理器都支持细粒度执行，但它们并不像mesos或yarn那样提供全面的api。

mesos cloud hpc slurm

来源：https://stackoverflow.com/questions/41044940/hpc-job-studies-and-hardware-utilization-report

2条答案

按热度按时间

kpbwa7wx1#

没有多少高性能计算机中心公布详细的、公开的使用报告。英国国家高性能混凝土设施通常是个例外，它们提供了大量有关其历史用途的数据。
当前服务archer发布2014年至当前日期的月度和季度数据（包括使用情况），网址为：
http://www.archer.ac.uk/about-archer/reports/
在之前的服务中，赫克托有2007-2014年的类似数据，网址为：
http://www.hector.ac.uk/about-us/reports/
而在此之前的服务hpcx有2002-2010年的数据：
http://www.hpcx.ac.uk/projects/reports/
这应该给你大约15年的数据来检查！

赞(0）回复(0）举报 2021-06-26

ffvjumwh2#

根据定义，hpc努力达到最大利用率。保持资源繁忙，工作排满队列，保持良好的积压状态。资源/数据中心的使用情况，这将取决于工作负载的类型。是内存还是计算，还是io密集型。与其他任何事情一样，在构建hpc集群/环境时也需要权衡。因此，一般来说，并不是所有的资源，或集群作为一个整体将得到充分利用。还有改进的余地。关于mesos与传统hpc调度器的比较，您是对的。mesos是两级调度器。它更具整体性，但这并不能阻止人们将其用于slurm或直接用于ad-hoc mpi。这就是为什么我要问你同样的问题，使hpc数据中心更能适应不同的工作负载。hpc可以从devops学到的是，它可以在传统调度程序“例如路由器、负载传感器”的基础上使用定制脚本，可以在一定程度上定制和优化hpc资源的利用率。univa和ibmlsf都有一些商业产品可以实现这一点。

赞(0）回复(0）举报 2021-06-26

我来回答

hpc作业研究和硬件利用率报告

2条答案

相关问题

热门标签

最新问答