我很难找到一份关于普通hpc集群平均硬件利用率的综合报告。谷歌(google)或facebook提供了各种关于云硬件利用率的数据集,但我是否可以从hpc中心引用或查看任何类似的报告/数据集。我的重点是看动态和长尾工作将如何受到影响,如果他们通过粗粮资源管理,如slurm,或扭矩运行。我知道这两个资源管理器都支持细粒度执行,但它们并不像mesos或yarn那样提供全面的api。
kpbwa7wx1#
没有多少高性能计算机中心公布详细的、公开的使用报告。英国国家高性能混凝土设施通常是个例外,它们提供了大量有关其历史用途的数据。当前服务archer发布2014年至当前日期的月度和季度数据(包括使用情况),网址为:http://www.archer.ac.uk/about-archer/reports/在之前的服务中,赫克托有2007-2014年的类似数据,网址为:http://www.hector.ac.uk/about-us/reports/而在此之前的服务hpcx有2002-2010年的数据:http://www.hpcx.ac.uk/projects/reports/这应该给你大约15年的数据来检查!
ffvjumwh2#
根据定义,hpc努力达到最大利用率。保持资源繁忙,工作排满队列,保持良好的积压状态。资源/数据中心的使用情况,这将取决于工作负载的类型。是内存还是计算,还是io密集型。与其他任何事情一样,在构建hpc集群/环境时也需要权衡。因此,一般来说,并不是所有的资源,或集群作为一个整体将得到充分利用。还有改进的余地。关于mesos与传统hpc调度器的比较,您是对的。mesos是两级调度器。它更具整体性,但这并不能阻止人们将其用于slurm或直接用于ad-hoc mpi。这就是为什么我要问你同样的问题,使hpc数据中心更能适应不同的工作负载。hpc可以从devops学到的是,它可以在传统调度程序“例如路由器、负载传感器”的基础上使用定制脚本,可以在一定程度上定制和优化hpc资源的利用率。univa和ibmlsf都有一些商业产品可以实现这一点。
2条答案
按热度按时间kpbwa7wx1#
没有多少高性能计算机中心公布详细的、公开的使用报告。英国国家高性能混凝土设施通常是个例外,它们提供了大量有关其历史用途的数据。
当前服务archer发布2014年至当前日期的月度和季度数据(包括使用情况),网址为:
http://www.archer.ac.uk/about-archer/reports/
在之前的服务中,赫克托有2007-2014年的类似数据,网址为:
http://www.hector.ac.uk/about-us/reports/
而在此之前的服务hpcx有2002-2010年的数据:
http://www.hpcx.ac.uk/projects/reports/
这应该给你大约15年的数据来检查!
ffvjumwh2#
根据定义,hpc努力达到最大利用率。保持资源繁忙,工作排满队列,保持良好的积压状态。资源/数据中心的使用情况,这将取决于工作负载的类型。是内存还是计算,还是io密集型。与其他任何事情一样,在构建hpc集群/环境时也需要权衡。因此,一般来说,并不是所有的资源,或集群作为一个整体将得到充分利用。还有改进的余地。关于mesos与传统hpc调度器的比较,您是对的。mesos是两级调度器。它更具整体性,但这并不能阻止人们将其用于slurm或直接用于ad-hoc mpi。这就是为什么我要问你同样的问题,使hpc数据中心更能适应不同的工作负载。hpc可以从devops学到的是,它可以在传统调度程序“例如路由器、负载传感器”的基础上使用定制脚本,可以在一定程度上定制和优化hpc资源的利用率。univa和ibmlsf都有一些商业产品可以实现这一点。