当我在spark cluster上运行numpy阵列时,我不知道它是在哪里创建的:
a = np.zeros((100, 100), dtype="byte")
我觉得应该在驱动程序上创建。但如果是这样的话,我们如何利用spark的分布式计算能力,换句话说,我们为什么要使用spark呢 numpy 如果它不能被分配的话?
numpy
2eafrhcq1#
答案是否定的。numpy会将数据拉入驱动程序,如果数据超出内存限制,可能会导致oom。
1条答案
按热度按时间2eafrhcq1#
答案是否定的。numpy会将数据拉入驱动程序,如果数据超出内存限制,可能会导致oom。