嗨,如果“ID”与 Dataframe 中的所有列匹配,我将尝试对一列的值求和
比如说
| 识别码|性别问题|价值|
| - -|- -|- -|
| 一个|男性|五个|
| 一个|男性|六个|
| 2个|女性|三个|
| 三个|女性|第0页|
| 三个|女性|九个|
| 四个|男性|10个|
如何获取下表
| 识别码|性别问题|价值|
| - -|- -|- -|
| 一个|男性|十一|
| 2个|女性|三个|
| 三个|女性|九个|
| 四个|男性|10个|
在上面的示例中,值为1的ID现在只显示一次,并且其值已求和(值为3的ID也是如此)。
谢谢
我是Pyspark的新手,还在学习中。我试过count()、select和groupby(),但没有任何结果。
2条答案
按热度按时间pinkon5k1#
请尝试以下操作:
指向有关
Window
操作https://spark.apache.org/docs/3.1.3/api/python/reference/api/pyspark.sql.functions.window.html的文档的链接f5emj3cl2#
您可以使用简单的
groupBy
和sum
函数:其结果是: