HDFS Kubernetes上Spark的数据局部性

lstz6jyr  于 2022-12-09  发布在  HDFS
关注(0)|答案(1)|浏览(200)

在Kubernetes上运行Spark时,我们需要HDFS还是S3?
如果我们只使用NFS存储类型,数据局部性是否会如此高效?
或者,也许我对Kubernetes上的Spark的理解存在根本性的错误。

0tdrvxhp

0tdrvxhp1#

如果你在外部处理数据(HDFS/S3),那么你就不会有数据局部性,性能也不会很好。
您可以通过run hdfs inside Kubernetes尝试避免此问题。

相关问题