我在pyspark有个数据框。
+----------------------+------------------+------------+------------+
| transaction_date| id|latest_quote|policy_price|
+----------------------+------------------+------------+------------+
| 16/12/2022|0063t000013qmPFAAY|2022-11-25 | 899.18|
| 16/12/2022|0063t000013qQNTAA2|2022-11-30 | 3147.78|
+----------------------+------------------+------------+------------+
我需要这个。
+--------------------------------------------------------------------------------------+
|unique_column
|
+--------------------------------------------------------------------------------------+
|{"transaction_date":"16/12/2022", "trans_opp":[
|
| {"id":"0063t000013qmPFAAY", "latest_quote":"2022-11-25", "policy_price":"899.18"},
|
| {"id":"0063t000013qQNTAA2", "latest_quote":"2022-11-30", "policy_price":" 3147.78"}]}|
+--------------------------------------------------------------------------------------+
其思想是所有行都位于一个称为unique_column的列中,
1条答案
按热度按时间goqiplq21#
我没有使用与您提问时完全相同的 Dataframe ,但我的解决方案中的列名是:
输出: