当我们在虚拟机上创建dataproc集群时,我们可以选择在configure节点下添加额外的磁盘,即1)主磁盘大小/类型2)本地SSD的数量。
例如,默认情况下,VM n2-standard-4具有4个内核、16 GB RAM和10 Gb标准(非SSD)磁盘(参考-https://www.instance-pricing.com/provider=gcp/instance=n2-standard-4)。
问题:在Apache spark中,当worker上的数据不适合RAM时,数据会溢出到磁盘。据我所知,每个dataproc VM都有一个默认分配的磁盘空间,溢出发生在那里。尝试遵循为什么除了默认磁盘之外,我们还需要主磁盘和本地SSD。当连接时,Shuffle会发生在主磁盘和本地SSD上吗?
1条答案
按热度按时间djp7away1#
AFAIK,对于Dataproc VM没有10GB的默认磁盘,您引用的源代码中的10GB可能只是一个示例。
在Dataproc集群中,有强制性的 Boot 磁盘(可以是
pd-standard
、pd-balanced
或pd-ssd
1)和可选的本地SSD 2。当为群集配置本地SSD时,HDFS和暂存数据(如shuffle输出)都使用本地SSD,而不是 Boot 持久磁盘2。当仅配置标准PD时,磁盘大小应至少为每个worker 1 TB 3.