pysparkDataframesql

odopli94 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(308)

我想将以下语句转换为df select语句：

Select 
 YY,
 PP,
 YYYY,
 PPPP,
 Min(ID) as MinId, 
 Max(ID) as MaxID 
from LoadTable

我尝试了以下方法，但似乎不起作用：

df.select(df.ID,df.YY, df.PP,df.YYYY,df.PPPPP).agg({"ID": "max", "ID": "min"}).toPandas().to_csv(outputFile, sep="|", header=True, index=False)

1条答案

在执行聚合函数时，这里可能缺少 GROUP BY 声明。如果是这样，您的sql语句将是：

SELECT YY, PP, YYYY, PPPP, Min(ID) as MinId, Max(ID) as MaxID 
  FROM LoadTable 
 GROUP BY YY, PP, YYYY, PPPP

相应的pyspark dataframe语句将是

from pyspark.sql import functions as F
df.groupBy(df.YY, df.PP, df.YYYY, df.PPPP).agg(F.min(df.ID), F.max(df.ID))

嗯！