我们有一个重复数据消除过程,它读取Parquet文件,删除重复记录,并将sparksql中不同的Dataframe写回Parquet输出文件。但是输出文件的大小是原来的两倍。我们正在编写的Parquet与gzip压缩,这也是原来的文件压缩编解码器。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!