这是我当前的表:
用户idproductamount 1amount 2amount 31a1002003001b2003004002a500600700
这就是我想要的结果:
用户idamount 1amount 2amount 31{“a”:100,“b”:200}{“a”:200,“b”:300}{“a”:300,“b”:400}2{“a”:500}{“a”:600}{“a”:700}
我知道我应该使用一个用户定义的聚合函数,但无法理解如何通过pyspark实现它们。
任何帮助都将不胜感激。
1条答案
按热度按时间dffbzjpn1#
你可以用
to_json
按分组后User Id
创建Map列: