pyspark中agg(sqlmax)和agg(max)之间的差异

gcuhipw9  于 2021-07-09  发布在  Spark
关注(0)|答案(1)|浏览(392)

在pyspark程序中,我阅读了以下代码行。这条线到底想达到什么目的?两者有什么区别 sqlmax 以及 max 在Pypark?

df.groupBy('groupId').agg(sqlmax('Time').alias('MaxTime')).withColumnRenamed('groupid1','groupid2')
elcex8rz

elcex8rz1#

我猜是这样的 sqlmax 作为导入

from pyspark.sql.functions import max as sqlmax

如果代码的作者希望避免覆盖python,那么哪种方法是有意义的 max 功能。你不能用Python maxagg ,但您可以使用sparksql max 聚合。
写这篇文章的一个可能更常见的方法是

import pyspark.sql.functions as F

df.groupBy('groupId').agg(F.max('Time').alias('MaxTime'))

相关问题