我想以分层的方式划分Dataframe。也就是说,dataframe有一个列,其中有很多零,只有几个1的值。我想用一个自定义的分区器来保持0和1的比例,但是我不知道怎么做。
这里是pyspark的分层抽样,这里是spark的分层抽样,我发现了类似的情况,但是用抽样代替了分区。你知道吗?这是我第一次尝试以自定义方式对数据进行分区。我使用的是spark+scala+dataframes
我想以分层的方式划分Dataframe。也就是说,dataframe有一个列,其中有很多零,只有几个1的值。我想用一个自定义的分区器来保持0和1的比例,但是我不知道怎么做。
这里是pyspark的分层抽样,这里是spark的分层抽样,我发现了类似的情况,但是用抽样代替了分区。你知道吗?这是我第一次尝试以自定义方式对数据进行分区。我使用的是spark+scala+dataframes
暂无答案!
目前还没有任何答案,快来回答吧!