自动缩放spark集群

kjthegm6 于 2021-06-07 发布在 Kafka

关注(0)|答案(1)|浏览(386)

我有一个Spark流在集群上运行的工作。spark作业从kafka提取消息，并在将处理后的数据转储到数据库之前执行所需的处理。我已经根据当前负载调整了集群的大小。但这种负荷要求在未来可能会上升/下降。
我想知道的技术，以促进这种自动缩放而不重新启动的工作。如果使用kakfa（在我的例子中），扩展会变得更加复杂，因为我不喜欢在有状态流中移动分区。目前集群完全在内部，但如果这有助于扩展用例，我不介意迁移到云。

apache-kafka apache-spark spark-streaming autoscaling

来源：https://stackoverflow.com/questions/48527272/auto-scale-spark-cluster

1条答案

按热度按时间

9q78igpj1#

这不是答案。只是一些笔记
“有状态流”。你这是什么意思？Spark中的所有状态都是分布的。而且您不应该依赖本地系统，好像某个任务失败了，它可以发送给任何其他执行者。
您是否在谈论增加集群的规模或为您在集群中的spark工作提供的资源？
如果是第一个节点，则需要监视每个节点（内存、cpu）并在该节点（达到某个阈值）时添加更多节点。
如果第二个：我们没有找到好的解决办法。spark提供了“自动缩放”功能，但是它不能与kafka流正常工作。

赞(0）回复(0）举报 2021-06-07

我来回答

自动缩放spark集群

1条答案

相关问题

热门标签

最新问答