此问题在此处已有答案:
Convert spark DataFrame column to python list(11个回答)
2天前关闭。
我的目标是从pyspark对象框架中获取列值到变量中,如果可能的话,作为列表。
Expected output = ["a", "b", "c", ... ]
字符串
我试探着:
[
col.__getitem__("x")
for col in data.select("x").collect()
]
型
但它给出了Row
对象的列表。
Output : [Row(x='a'), Row(x='b'), Row(x='c'), ...]
型
我不想使用collect,也不需要Row对象。
尝试了另一种方法:
data.select(f.collect_list("x")).collect()
型
比以前的版本稍好,但得到:
Output = [Row(collect_list(x) = ['a', 'b', 'c', ...]]
型
提前感谢和新年快乐!
1条答案
按热度按时间ezykj2lf1#
尝试了三种不同的解决方案:
字符串
虽然我使用的是收集,但它比其他解决方案更快。P.S
df.count ~ 116M