我有以下Dataframe:
# +-----------------------------+--------+--------+---------+
# |PROVINCE_STATE|COUNTRY_REGION|2/1/2020|2/1/2020|2/11/2020|
# +--------------+--------------+--------+--------+---------+
# | -| Australia| 12| 15| 15|
# +--------------+--------------+--------+--------+---------+
我需要合并在一个所有的行,并为日期有基于国家/地区的总和。问题是我有更多的列,不知道如何动态地做。试过groupby,但还是不行。谢谢。
4条答案
按热度按时间63lcw9qa1#
使用聚合:
我不知道你说的“动态”是什么意思。作为sql查询,需要单独列出每个表达式。
qeeaahzv2#
在pyspark中试试这个:一种方法是使用窗口函数
ddhy6vgd3#
如果您的前两列始终是省和州,其他n列是日期,您可以在下面尝试(scala):
python版本:
输出:
mf98qq944#
试试这个。