我有一个函数f(df, index)
,它接受一个pyspark对象框架df
和一个索引作为输入参数,并返回一个带有附加列的对象框架。我有多个索引值,我想运行函数并存储输出的数组。比如index_all = df.select('index').distinct()
。现在我想对index_all
中的所有值运行函数,所以:
total_results = []
for index in index_all
result = f(df, index)
total_results = total_results.append(result)
如何尽可能高效地使用pyspark框架?
1条答案
按热度按时间mf98qq941#
一个来自其他答案的示例解决方案。
描述性和自定义输出: