我在对比斯派克的 parquet 和Apache钻的。德雷尔的 parquet 比斯帕克的轻多了。Spark默认使用GZIP作为压缩编解码器,为了进行实验,我尝试将其更改为snappy:相同大小未压缩:相同大小的lzo:例外
我试了两种方法:
sqlContext.sql("SET spark.sql.parquet.compression.codec=uncompressed")
sqlContext.setConf("spark.sql.parquet.compression.codec.", "uncompressed")
但似乎并没有改变他的设置
6条答案
按热度按时间xpszyzbs1#
在2.1.1中为我工作
rdlzhqv92#
对于spark 1.3和spark.sql.parquet.compression.codec参数,未压缩输出。下面的一个工作。
sql(“SET parquet.compression=SNAPPY”)
ezykj2lf3#
试试这个。似乎在1.6.0中对我有效
vfwfrxfs4#
对于Spark 1.6:您可以使用不同的压缩编解码器。尝试:
ar5n3qh55#
尝试:
我看到你已经这样做了,但我无法删除我的移动的上的答案。请尝试按照注解中的建议在sqlcontext之前设置此参数。
bwntbbo36#
当通过 hive context 存储到 Hive 时遇到问题时,请用途: