使用pyspark获取输入parquet文件的压缩信息

aemubtdh 于 2021-05-17 发布在 Spark

关注(0)|答案(0)|浏览(352)

我有一个要求，在那里我阅读输入Parquet文件和重新划分成更小的文件，以减少大小。问题是，输入和输出parquet文件的压缩类型应该匹配（默认情况下，pyspark执行snappy压缩）。这不应该发生。假设，如果输入压缩类型是gzip，那么输出应该是gzip，或者如果输入是snappy，那么输出应该是snappy。
是否有任何参数，以便我可以设置为匹配压缩类型。

python apache-spark pyspark pyspark-dataframes parquet

来源：https://stackoverflow.com/questions/64939439/get-the-compression-information-of-input-parquet-file-using-pyspark

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

使用pyspark获取输入parquet文件的压缩信息

暂无答案！

相关问题

热门标签

最新问答