我有一个要求,在那里我阅读输入Parquet文件和重新划分成更小的文件,以减少大小。问题是,输入和输出parquet文件的压缩类型应该匹配(默认情况下,pyspark执行snappy压缩)。这不应该发生。假设,如果输入压缩类型是gzip,那么输出应该是gzip,或者如果输入是snappy,那么输出应该是snappy。是否有任何参数,以便我可以设置为匹配压缩类型。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!