这个问题在这里已经有答案了:
如果我没有足够的记忆,spark会怎么办(3个答案)三年前关门了。据我所知,spark尝试在内存中执行所有计算,除非您调用persist with disk storage选项。但是,如果我们不使用任何persist,那么当rdd不适合内存时,spark会做什么呢?如果我们有非常庞大的数据呢。spark如何处理它而不撞车?
olmpazwi1#
来自apache spark常见问题解答:spark的运营商将数据泄漏到磁盘,如果它不适合内存,允许它在任何大小的数据上运行良好。同样地,不适合内存的缓存数据集要么溢出到磁盘,要么在需要时动态重新计算,这取决于rdd的存储级别。请参阅下面的链接以了解有关存储级别的更多信息以及如何在这些级别之间选择适当的级别:programming-guide.html
1条答案
按热度按时间olmpazwi1#
来自apache spark常见问题解答:
spark的运营商将数据泄漏到磁盘,如果它不适合内存,允许它在任何大小的数据上运行良好。同样地,不适合内存的缓存数据集要么溢出到磁盘,要么在需要时动态重新计算,这取决于rdd的存储级别。
请参阅下面的链接以了解有关存储级别的更多信息以及如何在这些级别之间选择适当的级别:programming-guide.html