为什么spark选择在洗牌阶段通过网络发送数据,而不是在hdfs上写入某个位置?

ie3xauqp  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(323)

据我所知,spark试图通过网络将数据发送到另一个节点的内存缓冲区,如果数据不适合内存,则会溢出到磁盘,为什么spark不能从任何节点都可以读取的位置写入hdfs?

ttisahbt

ttisahbt1#

将其写入磁盘的传输速度要慢得多。除此之外,还可以保证在感兴趣的节点之间同步磁盘访问会产生开销。

相关问题