Pandas到Spark源环境

5vf7fwbs  于 2022-09-21  发布在  Spark
关注(0)|答案(1)|浏览(135)
newlist = []
for column in new_columns:
    count12 = new_df.loc[new_df[col].diff() == 1]
    new_df2=new_df2.groupby(['my_id','friend_id','family_id','colleage_id']).apply(len)

在PYSPARK中没有用于获取列的所有长度的选项

我们怎样才能把这段代码变成Spark源。

提前谢谢你..

uurity8g

uurity8g1#

从字面上看,apply(len)只是一个聚合函数,用于计算groupby中的分组元素。您可以在基本的PySpark语法中做同样的事情

import pyspark.sql.functions as F

(df
    .groupBy('my_id','friend_id','family_id','colleage_id')
    .agg(F.count('*'))
    .show()
)

相关问题