在Kubernetes上运行Spark时,我们需要HDFS还是S3?如果我们只使用NFS存储类型,数据局部性是否会如此高效?或者,也许我对Kubernetes上的Spark的理解存在根本性的错误。
0tdrvxhp1#
如果你在外部处理数据(HDFS/S3),那么你就不会有数据局部性,性能也不会很好。您可以通过run hdfs inside Kubernetes尝试避免此问题。
1条答案
按热度按时间0tdrvxhp1#
如果你在外部处理数据(HDFS/S3),那么你就不会有数据局部性,性能也不会很好。
您可以通过run hdfs inside Kubernetes尝试避免此问题。