spark中重复数据消除后,Parquet文件大小加倍

00jrzges  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(196)

我们有一个重复数据消除过程,它读取Parquet文件,删除重复记录,并将sparksql中不同的Dataframe写回Parquet输出文件。但是输出文件的大小是原来的两倍。我们正在编写的Parquet与gzip压缩,这也是原来的文件压缩编解码器。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题