Spark不使用spark.sql.parquet.compression.codec

ca1c2owp 于 2023-06-24 发布在 Apache

关注(0)|答案(6)|浏览(154)

我在对比斯派克的 parquet 和Apache钻的。德雷尔的 parquet 比斯帕克的轻多了。Spark默认使用GZIP作为压缩编解码器，为了进行实验，我尝试将其更改为snappy：相同大小未压缩：相同大小的lzo：例外
我试了两种方法：

sqlContext.sql("SET spark.sql.parquet.compression.codec=uncompressed")
sqlContext.setConf("spark.sql.parquet.compression.codec.", "uncompressed")

但似乎并没有改变他的设置

apache-spark

来源：https://stackoverflow.com/questions/35771314/spark-not-using-spark-sql-parquet-compression-codec

6条答案

按热度按时间

xpszyzbs1#

在2.1.1中为我工作

df.write.option("compression","snappy").parquet(filename)

赞(0）回复(0）举报 2023-06-24

rdlzhqv92#

对于spark 1.3和spark.sql.parquet.compression.codec参数，未压缩输出。下面的一个工作。
sql（“SET parquet.compression=SNAPPY”）

赞(0）回复(0）举报 2023-06-24

ezykj2lf3#

试试这个。似乎在1.6.0中对我有效

val sc = new SparkContext(sparkConf)
val sqlContext = new HiveContext(sc)
sqlContext.setConf("spark.sql.parquet.compression.codec", "uncompressed")

赞(0）回复(0）举报 2023-06-24

vfwfrxfs4#

对于Spark 1.6：您可以使用不同的压缩编解码器。尝试：

sqlContext.setConf("spark.sql.parquet.compression.codec","gzip")
sqlContext.setConf("spark.sql.parquet.compression.codec","lzo")    
sqlContext.setConf("spark.sql.parquet.compression.codec","snappy")
sqlContext.setConf("spark.sql.parquet.compression.codec","uncompressed")

赞(0）回复(0）举报 2023-06-24

ar5n3qh55#

尝试：

sqlContext.setConf("spark.sql.parquet.compression.codec", "snappy")

我看到你已经这样做了，但我无法删除我的移动的上的答案。请尝试按照注解中的建议在sqlcontext之前设置此参数。

赞(0）回复(0）举报 2023-06-24

bwntbbo36#

当通过 hive context 存储到 Hive 时遇到问题时，请用途：

hc.sql("set parquet.compression=snappy")

赞(0）回复(0）举报 2023-06-24

我来回答

Spark不使用spark.sql.parquet.compression.codec

6条答案

相关问题

热门标签

最新问答