scala—使用spark(2.4.x或更高版本)中的df.rdd将Dataframe转换为rdd时，内部会发生什么情况？

am46iovg 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(244)

我正在开发一个应用程序，在udf之后使用df.cache（），然后使用df.count（），但是我在更新的spark版本（>2.x）中读到，优化器不需要计算所有行来执行.count（），因此.cache（）不会发生，所以最好使用df.rdd.count（）。这是真的吗？
另外，如果我们执行df.somefun（）和df.rdd.somefun（），内部会发生什么？

scala apache-spark pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/63469437/what-happens-internally-when-a-dataframe-is-converted-to-rdd-using-df-rdd-in-spa

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

scala—使用spark(2.4.x或更高版本)中的df.rdd将Dataframe转换为rdd时，内部会发生什么情况？

暂无答案！

相关问题

热门标签

最新问答