如果我有一个10gb大小的数据集,而spark集群中只有10gb的可用资源(执行器),那么它将如何以编程方式进行处理?
6jjcrrmo1#
您似乎假设spark可用的内存必须等于或超过数据的大小。事实并非如此。Spark会根据需要溅到磁盘上。此外,压缩将缩小数据的内存占用。底线:不保存数据而继续( .cache() ).
.cache()
1条答案
按热度按时间6jjcrrmo1#
您似乎假设spark可用的内存必须等于或超过数据的大小。事实并非如此。Spark会根据需要溅到磁盘上。
此外,压缩将缩小数据的内存占用。
底线:不保存数据而继续(
.cache()
).