有人能告诉我在pyspark中检查非常大的Dataframe时哪种方法最有效吗?在这里,它表示非急切的检查点保留了沿袭,并且只会在代码中涉及到检查点时触发它。急切的检查点会立即触发它,因此在使用它之前需要等待很长时间。对于需要迭代执行检查点的非常大的数据集,使用non-eager有意义吗?
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!