在pyspark程序中,我阅读了以下代码行。这条线到底想达到什么目的?两者有什么区别 sqlmax 以及 max 在Pypark?
sqlmax
max
df.groupBy('groupId').agg(sqlmax('Time').alias('MaxTime')).withColumnRenamed('groupid1','groupid2')
elcex8rz1#
我猜是这样的 sqlmax 作为导入
from pyspark.sql.functions import max as sqlmax
如果代码的作者希望避免覆盖python,那么哪种方法是有意义的 max 功能。你不能用Python max 在 agg ,但您可以使用sparksql max 聚合。写这篇文章的一个可能更常见的方法是
agg
import pyspark.sql.functions as F df.groupBy('groupId').agg(F.max('Time').alias('MaxTime'))
1条答案
按热度按时间elcex8rz1#
我猜是这样的
sqlmax
作为导入如果代码的作者希望避免覆盖python,那么哪种方法是有意义的
max
功能。你不能用Pythonmax
在agg
,但您可以使用sparksqlmax
聚合。写这篇文章的一个可能更常见的方法是