Apache Spark 默认虚拟机大小调整基础上的附加磁盘的作用

o3imoua4 于 2023-11-22 发布在 Apache

关注(0)|答案(1)|浏览(199)

当我们在虚拟机上创建dataproc集群时，我们可以选择在configure节点下添加额外的磁盘，即1）主磁盘大小/类型2）本地SSD的数量。
例如，默认情况下，VM n2-standard-4具有4个内核、16 GB RAM和10 Gb标准（非SSD）磁盘（参考-https://www.instance-pricing.com/provider=gcp/instance=n2-standard-4）。

问题：在Apache spark中，当worker上的数据不适合RAM时，数据会溢出到磁盘。据我所知，每个dataproc VM都有一个默认分配的磁盘空间，溢出发生在那里。尝试遵循为什么除了默认磁盘之外，我们还需要主磁盘和本地SSD。当连接时，Shuffle会发生在主磁盘和本地SSD上吗？

apache-spark

来源：https://stackoverflow.com/questions/77360685/role-of-additional-disk-on-top-of-default-vm-sizing

1条答案

按热度按时间

djp7away1#

AFAIK，对于Dataproc VM没有10GB的默认磁盘，您引用的源代码中的10GB可能只是一个示例。
在Dataproc集群中，有强制性的 Boot 磁盘（可以是pd-standard、pd-balanced或pd-ssd 1）和可选的本地SSD 2。
当为群集配置本地SSD时，HDFS和暂存数据（如shuffle输出）都使用本地SSD，而不是 Boot 持久磁盘2。当仅配置标准PD时，磁盘大小应至少为每个worker 1 TB 3.

赞(0）回复(0）举报 2023-11-22

我来回答

Apache Spark 默认虚拟机大小调整基础上的附加磁盘的作用

1条答案

相关问题

热门标签

最新问答