我正在开发一个应用程序,在udf之后使用df.cache(),然后使用df.count(),但是我在更新的spark版本(>2.x)中读到,优化器不需要计算所有行来执行.count(),因此.cache()不会发生,所以最好使用df.rdd.count()。这是真的吗?
另外,如果我们执行df.somefun()和df.rdd.somefun(),内部会发生什么?
我正在开发一个应用程序,在udf之后使用df.cache(),然后使用df.count(),但是我在更新的spark版本(>2.x)中读到,优化器不需要计算所有行来执行.count(),因此.cache()不会发生,所以最好使用df.rdd.count()。这是真的吗?
另外,如果我们执行df.somefun()和df.rdd.somefun(),内部会发生什么?
暂无答案!
目前还没有任何答案,快来回答吧!