再说一次,在aws和Pypark上,不知怎么的,似乎做不好。我的第一个Dataframe是先前数据转换的结果,看起来像df1:
| id | class |
| 2 | Bob |
| 4 | Darryl |
| 6 | Frank |
我的第二个Dataframe是原始数据,看起来像df2:
| id | amount |
| 1 | 5 |
| 5 | 3 |
| 2 | 3 |
| 4 | 3 |
| 3 | 2 |
| 4 | 2 |
| 2 | 5 |
| 4 | 1 |
| 6 | 0 |
我需要对每个类的值求和。我的结果需要如下所示,即df3:
| 2 | 8 |
| 4 | 5 |
| 6 | 0 |
我的逻辑是删除df2中df2.id与df1.id不匹配的所有行,然后对所有类求和。在sql中,我将连接df1和df2,其中df1.id匹配只包含df1.id和df2.value的df2.id,然后按id和求和值对查询分组。我一直在挣扎,现在几乎要放弃了。有什么想法吗?谢谢。
1条答案
按热度按时间7kjnsjlb1#
正如你所说的,你可以加入进来
id
,然后按分组id
总结一下amount
: