我想在处理给定的Dataframe时应用一些自定义分区。我发现rdd groupby为我提供了所需的功能。现在当我说
dataframe.rdd.groupBy(lambda row: row[1:3], numPartitions, partitioner)
我的结局是 PythonRDD
有一个元组作为键和 ResultIterator
作为值。我接下来要做的是将其转换回Dataframe,因为我想使用的apply函数 GroupedData
. 我尝试过很多事情,但到目前为止都不走运。
任何帮助都将不胜感激!
暂无答案!
目前还没有任何答案,快来回答吧!