据我所知,spark试图通过网络将数据发送到另一个节点的内存缓冲区,如果数据不适合内存,则会溢出到磁盘,为什么spark不能从任何节点都可以读取的位置写入hdfs?
ttisahbt1#
将其写入磁盘的传输速度要慢得多。除此之外,还可以保证在感兴趣的节点之间同步磁盘访问会产生开销。
1条答案
按热度按时间ttisahbt1#
将其写入磁盘的传输速度要慢得多。除此之外,还可以保证在感兴趣的节点之间同步磁盘访问会产生开销。