在dataproc中运行300多个并发spark作业的最佳方法？

uurv41yg 于 2021-05-18 发布在 Spark

关注(0)|答案(1)|浏览(516)

我有一个带有2个工作节点（n1s2）的dataproc集群。有一个外部服务器，它在一小时内提交大约360个spark作业（每次提交之间间隔几分钟）。第一个作业成功完成，但随后的作业被卡住，根本无法继续。
每项工作都会处理一些时间序列数字，并向Cassandra写信。当集群完全空闲时，所花费的时间通常为3-6分钟。
我觉得只要扩展集群就可以解决这个问题，但对我来说成本会非常高。最好解决这个用例的其他选项是什么？

apache-spark google-cloud-dataproc dataproc

来源：https://stackoverflow.com/questions/64676480/best-way-to-run-300-concurrent-spark-jobs-in-dataproc