newlist = [] for column in new_columns: count12 = new_df.loc[new_df[col].diff() == 1] new_df2=new_df2.groupby(['my_id','friend_id','family_id','colleage_id']).apply(len)
在PYSPARK中没有用于获取列的所有长度的选项
我们怎样才能把这段代码变成Spark源。
提前谢谢你..
uurity8g1#
从字面上看,apply(len)只是一个聚合函数,用于计算groupby中的分组元素。您可以在基本的PySpark语法中做同样的事情
apply(len)
groupby
import pyspark.sql.functions as F (df .groupBy('my_id','friend_id','family_id','colleage_id') .agg(F.count('*')) .show() )
1条答案
按热度按时间uurity8g1#
从字面上看,
apply(len)
只是一个聚合函数,用于计算groupby
中的分组元素。您可以在基本的PySpark语法中做同样的事情