我有一个带有2个工作节点(n1s2)的dataproc集群。有一个外部服务器,它在一小时内提交大约360个spark作业(每次提交之间间隔几分钟)。第一个作业成功完成,但随后的作业被卡住,根本无法继续。
每项工作都会处理一些时间序列数字,并向Cassandra写信。当集群完全空闲时,所花费的时间通常为3-6分钟。
我觉得只要扩展集群就可以解决这个问题,但对我来说成本会非常高。最好解决这个用例的其他选项是什么?
我有一个带有2个工作节点(n1s2)的dataproc集群。有一个外部服务器,它在一小时内提交大约360个spark作业(每次提交之间间隔几分钟)。第一个作业成功完成,但随后的作业被卡住,根本无法继续。
每项工作都会处理一些时间序列数字,并向Cassandra写信。当集群完全空闲时,所花费的时间通常为3-6分钟。
我觉得只要扩展集群就可以解决这个问题,但对我来说成本会非常高。最好解决这个用例的其他选项是什么?
1条答案
按热度按时间yizd12fk1#
在2个工作节点集群上运行300多个并发作业听起来不太可行。首先要估计每个作业需要多少资源(cpu、内存、磁盘),然后制定集群大小的计划。可用cpu、可用内存(尤其是挂起内存)等指标将有助于确定资源不足的情况。