pyspark groupby和自定义分区器

q5iwbnjs 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(369)

我想在处理给定的Dataframe时应用一些自定义分区。我发现rdd groupby为我提供了所需的功能。现在当我说

dataframe.rdd.groupBy(lambda row: row[1:3], numPartitions, partitioner)

我的结局是 PythonRDD 有一个元组作为键和 ResultIterator 作为值。我接下来要做的是将其转换回Dataframe，因为我想使用的apply函数 GroupedData . 我尝试过很多事情，但到目前为止都不走运。
任何帮助都将不胜感激！

目前还没有任何答案，快来回答吧！

相关问题