pyspark groupby和自定义分区器

q5iwbnjs  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(363)

我想在处理给定的Dataframe时应用一些自定义分区。我发现rdd groupby为我提供了所需的功能。现在当我说

dataframe.rdd.groupBy(lambda row: row[1:3], numPartitions, partitioner)

我的结局是 PythonRDD 有一个元组作为键和 ResultIterator 作为值。我接下来要做的是将其转换回Dataframe,因为我想使用的apply函数 GroupedData . 我尝试过很多事情,但到目前为止都不走运。
任何帮助都将不胜感激!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题