scala—对Dataframe进行分区,以使每个类标签的数据量最小(分层分区)

zpjtge22  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(260)

我想以分层的方式划分Dataframe。也就是说,dataframe有一个列,其中有很多零,只有几个1的值。我想用一个自定义的分区器来保持0和1的比例,但是我不知道怎么做。
这里是pyspark的分层抽样,这里是spark的分层抽样,我发现了类似的情况,但是用抽样代替了分区。你知道吗?这是我第一次尝试以自定义方式对数据进行分区。我使用的是spark+scala+dataframes

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题