spark数据集写入2个不同的目录

ivqmmu1c  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(461)

我在spark中有一个数据集,它被一列分割 ip . 现在我想把这个数据集分成2,然后用hdfs编写,这样如果总分区是 100 ie公司 ip=1 to ip=100 那么每个hdfs目录最终应该包含50个分区。
输入:

mydata/
mydata/ip=1
mydata/ip=2
mydata/ip=3
mydata/ip=4
.
.
mydata/ip=101

结果

mydata1/
mydata1/ip=1
mydata1/ip=3
.
.
mydata1/ip=50

mydata2/
mydata2/ip=51
mydata2/ip=4
mydata2/ip=100

另外,在编写如何确保每个目录mydata1和mydata2包含大小相等的数据分布时。这意味着两个目录都应该包含25gb或数据,不应该出现mydata1包含1gb而mydata2包含49GB的情况
谢谢

3z6pesqy

3z6pesqy1#

是的,你可以用木扣。了解更多关于buckinting的信息:https://dwgeek.com/spark-sql-bucketing-on-dataframe-examples.html/

相关问题