spark cluster中可用的资源有限

iyzzxitl  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(371)

如果我有一个10gb大小的数据集,而spark集群中只有10gb的可用资源(执行器),那么它将如何以编程方式进行处理?

6jjcrrmo

6jjcrrmo1#

您似乎假设spark可用的内存必须等于或超过数据的大小。事实并非如此。Spark会根据需要溅到磁盘上。
此外,压缩将缩小数据的内存占用。
底线:不保存数据而继续( .cache() ).

相关问题