Spark不使用spark.sql.parquet.compression.codec

ca1c2owp  于 2023-06-24  发布在  Apache
关注(0)|答案(6)|浏览(154)

我在对比斯派克的 parquet 和Apache钻的。德雷尔的 parquet 比斯帕克的轻多了。Spark默认使用GZIP作为压缩编解码器,为了进行实验,我尝试将其更改为snappy:相同大小未压缩:相同大小的lzo:例外
我试了两种方法:

sqlContext.sql("SET spark.sql.parquet.compression.codec=uncompressed")
sqlContext.setConf("spark.sql.parquet.compression.codec.", "uncompressed")

但似乎并没有改变他的设置

xpszyzbs

xpszyzbs1#

在2.1.1中为我工作

df.write.option("compression","snappy").parquet(filename)
rdlzhqv9

rdlzhqv92#

对于spark 1.3和spark.sql.parquet.compression.codec参数,未压缩输出。下面的一个工作。
sql(“SET parquet.compression=SNAPPY”)

ezykj2lf

ezykj2lf3#

试试这个。似乎在1.6.0中对我有效

val sc = new SparkContext(sparkConf)
val sqlContext = new HiveContext(sc)
sqlContext.setConf("spark.sql.parquet.compression.codec", "uncompressed")
vfwfrxfs

vfwfrxfs4#

对于Spark 1.6:您可以使用不同的压缩编解码器。尝试:

sqlContext.setConf("spark.sql.parquet.compression.codec","gzip")
sqlContext.setConf("spark.sql.parquet.compression.codec","lzo")    
sqlContext.setConf("spark.sql.parquet.compression.codec","snappy")
sqlContext.setConf("spark.sql.parquet.compression.codec","uncompressed")
ar5n3qh5

ar5n3qh55#

尝试:

sqlContext.setConf("spark.sql.parquet.compression.codec", "snappy")

我看到你已经这样做了,但我无法删除我的移动的上的答案。请尝试按照注解中的建议在sqlcontext之前设置此参数。

bwntbbo3

bwntbbo36#

当通过 hive context 存储到 Hive 时遇到问题时,请用途:

hc.sql("set parquet.compression=snappy")

相关问题