我的工作分为两部分:
第一部分使用spark从hbase检索数据
seoncd部分计算占用大量cpu的ml算法
问题是,在执行器/核心数量较多的情况下,hbase集群的查询过于激烈,这可能会导致生产不稳定。由于执行器/内核太少,ml计算需要很长时间才能执行。
由于执行器和核心的数量是在启动时设置的,我想知道是否有一种方法可以减少作业第一部分的执行器数量。
很明显,我希望避免在这两个步骤之间运行两个独立的作业,就像hadoop在mandary disk serialization中所做的那样。
谢谢你的帮助
1条答案
按热度按时间vuktfyat1#
我想动态分配是你要找的。这是你可以使用的Spark流以及。
我认为您可能还需要对rdd大小进行一些调整,以平衡数据摄取和数据处理,但这取决于您真正的用例是什么,可能会非常具有挑战性。