我一直在尝试在pyspark中将行展平,因为我的数据集如下所示
|member_id|age|gender| date|cost|
+---------+---+------+----------+-----------+
| 1| 35| Male|2023-10-01| 200|
| 1| 35| Male|2023-10-02| 210|
| 2| 28|Female|2023-10-01| 150|
| 2| 28|Female|2023-10-02| 160|
+---------+---+------+----------+-----------+
字符串
现在我想要的输出是:
[
[
[1,35, Male, 2023-10-01, 200],[1, 35, Male, 2023-10-02, 210]
],
[
[2, 28, Female, 2023-10-01, 150],[2, 28, Female, 2023-10-01, 160]
]
]
型
我试过了,但我做不到。
1条答案
按热度按时间n53p2ov01#
简单的想法:
首先通过
F.array
函数将所有列收集到列表中和
在
groupBy
上做F.collect_list
。字符串
输出量:
型