Apache Spark 默认虚拟机大小调整基础上的附加磁盘的作用

o3imoua4  于 2023-11-22  发布在  Apache
关注(0)|答案(1)|浏览(184)

当我们在虚拟机上创建dataproc集群时,我们可以选择在configure节点下添加额外的磁盘,即1)主磁盘大小/类型2)本地SSD的数量。
例如,默认情况下,VM n2-standard-4具有4个内核、16 GB RAM和10 Gb标准(非SSD)磁盘(参考-https://www.instance-pricing.com/provider=gcp/instance=n2-standard-4)。

问题:在Apache spark中,当worker上的数据不适合RAM时,数据会溢出到磁盘。据我所知,每个dataproc VM都有一个默认分配的磁盘空间,溢出发生在那里。尝试遵循为什么除了默认磁盘之外,我们还需要主磁盘和本地SSD。当连接时,Shuffle会发生在主磁盘和本地SSD上吗?

djp7away

djp7away1#

AFAIK,对于Dataproc VM没有10GB的默认磁盘,您引用的源代码中的10GB可能只是一个示例。
在Dataproc集群中,有强制性的 Boot 磁盘(可以是pd-standardpd-balancedpd-ssd 1)和可选的本地SSD 2
当为群集配置本地SSD时,HDFS和暂存数据(如shuffle输出)都使用本地SSD,而不是 Boot 持久磁盘2。当仅配置标准PD时,磁盘大小应至少为每个worker 1 TB 3.

相关问题