在dataproc中运行300多个并发spark作业的最佳方法?

uurv41yg  于 2021-05-18  发布在  Spark
关注(0)|答案(1)|浏览(478)

我有一个带有2个工作节点(n1s2)的dataproc集群。有一个外部服务器,它在一小时内提交大约360个spark作业(每次提交之间间隔几分钟)。第一个作业成功完成,但随后的作业被卡住,根本无法继续。
每项工作都会处理一些时间序列数字,并向Cassandra写信。当集群完全空闲时,所花费的时间通常为3-6分钟。
我觉得只要扩展集群就可以解决这个问题,但对我来说成本会非常高。最好解决这个用例的其他选项是什么?

yizd12fk

yizd12fk1#

在2个工作节点集群上运行300多个并发作业听起来不太可行。首先要估计每个作业需要多少资源(cpu、内存、磁盘),然后制定集群大小的计划。可用cpu、可用内存(尤其是挂起内存)等指标将有助于确定资源不足的情况。

相关问题