我有一个spark数据框
| item_id | attribute_key| attribute_value
____________________________________________________________________________
| id_1 brand Samsung
| id_1 ram 6GB
| id_2 brand Apple
| id_2 ram 4GB
_____________________________________________________________________________
我想把这个Dataframe按 item_id
并输出为文件,每行为 json
对象
{id_1: "properties":[{"brand":['Samsung']},{"ram":['6GB']} ]}
{id_2: "properties":[{"brand":['Apple']},{"ram":['4GB']} ]}
这是一个大的分布式数据框架,所以转换成Pandas不是一个选择。这种转变在pyspark中可能吗
1条答案
按热度按时间23c0lvtd1#
在scala中,但python版本将非常相似(sql.functions):
输出: