scala—使用spark(2.4.x或更高版本)中的df.rdd将Dataframe转换为rdd时,内部会发生什么情况?

am46iovg  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(244)

我正在开发一个应用程序,在udf之后使用df.cache(),然后使用df.count(),但是我在更新的spark版本(>2.x)中读到,优化器不需要计算所有行来执行.count(),因此.cache()不会发生,所以最好使用df.rdd.count()。这是真的吗?
另外,如果我们执行df.somefun()和df.rdd.somefun(),内部会发生什么?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题