已关闭,此问题为opinion-based。目前不接受答复。
**想改善这个问题吗?**更新问题,以便editing this post可以用事实和引用来回答。
6年前关闭。
这篇文章是编辑并提交审查3天前.
Improve this questionDataFrame.count()
需要具体化查询,这是昂贵的。DataFrame.rdd
是否存在不可忽略的[物化]成本?与前者相比如何?
后者是否执行得更快?
已关闭,此问题为opinion-based。目前不接受答复。
**想改善这个问题吗?**更新问题,以便editing this post可以用事实和引用来回答。
6年前关闭。
这篇文章是编辑并提交审查3天前.
Improve this questionDataFrame.count()
需要具体化查询,这是昂贵的。DataFrame.rdd
是否存在不可忽略的[物化]成本?与前者相比如何?
后者是否执行得更快?
2条答案
按热度按时间ni65a41a1#
.isEmpty()
最好它更短,更不容易出错。更新
Spark代码解释得更好!!在RDD类
isEmpty()
中为c2e8gylq2#
最快的方法应该是:
这与
RDD
的isEmpty
类似,但不需要像调用.rdd
那样进行反序列化。但是,很难说您的情况是否更好-我们不知道要求