例如,考虑一个Dataframe示例 df
:
user_id | item_id | item_param1 | item_param2 |
1 a 10 20
1 b 30 40
2 b 50 60
2 c 70 80
从这个Dataframe df
,我想收集所有 items
以及它们的性质 item_paramX
每 user_id
在一行中,因此输出为:
user_id | values
------------------------------------------------
1 | [{'a': {'item_param1': 10, 'item_param2': 20}}, {'b': {'item_param1': 30, 'item_param2': 40}}]
2 | [{'b': {'item_param1': 50, 'item_param2': 60}}, {'c': {'item_param1': 70, 'item_param2': 80}}]
我需要使用 groupBy('user_id')
然后是某种形式的 collect_list
去查字典。
1条答案
按热度按时间sf6xfgos1#
你可以用
collect_list
在Map上item_id -> struct
: