我有一个大的pysparkDataframe(23m行),格式如下:
names, sentiment
["Lily","Kerry","Mona"], 10
["Kerry", "Mona"], 2
["Mona"], 0
我想计算“名称”列中每个唯一名称的平均情绪,结果如下:
name, sentiment
"Lily", 10
"Kerry", 6
"Mona", 4
我有一个大的pysparkDataframe(23m行),格式如下:
names, sentiment
["Lily","Kerry","Mona"], 10
["Kerry", "Mona"], 2
["Mona"], 0
我想计算“名称”列中每个唯一名称的平均情绪,结果如下:
name, sentiment
"Lily", 10
"Kerry", 6
"Mona", 4
2条答案
按热度按时间mctunoxg1#
bjp0bcyl2#
只需分解数组,然后分组
Pypark当量