Pandas到Spark源环境

5vf7fwbs 于 2022-09-21 发布在 Spark

关注(0)|答案(1)|浏览(135)

newlist = []
for column in new_columns:
    count12 = new_df.loc[new_df[col].diff() == 1]
    new_df2=new_df2.groupby(['my_id','friend_id','family_id','colleage_id']).apply(len)

在PYSPARK中没有用于获取列的所有长度的选项

我们怎样才能把这段代码变成Spark源。

提前谢谢你..

pyspark

来源：https://stackoverflow.com/questions/73763530/pandas-to-pyspark-environment

1条答案

按热度按时间

uurity8g1#

从字面上看，apply(len)只是一个聚合函数，用于计算groupby中的分组元素。您可以在基本的PySpark语法中做同样的事情

import pyspark.sql.functions as F

(df
    .groupBy('my_id','friend_id','family_id','colleage_id')
    .agg(F.count('*'))
    .show()
)

赞(0）回复(0）举报 2022-09-21

我来回答

Pandas到Spark源环境

1条答案

相关问题

热门标签

最新问答