如何处理大量Parquet文件

qgelzfjb  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(520)

我在hadoop上使用apache parquet,过了一段时间我有一个问题。当我在hadoop上的spark中生成parquets时,它会变得非常混乱。当我说凌乱,我的意思是Spark工作是产生大量的Parquet文件。当我尝试查询它们时,我正在处理大时间查询,因为spark正在将所有文件合并在一起。
你能告诉我正确的处理方法吗,或者我可能误用了它们?你已经处理过了吗?你是怎么解决的?
更新1:将这些文件合并到一个Parquet地板上的一些“副业”是否足够好?什么尺寸的Parquet文件是首选使用,一些上下边界?

s5a0g9ez

s5a0g9ez1#

减少输出文件数量的一个好方法是使用 coalesce 或者 repartition .

68bkxrlz

68bkxrlz2#

看看这个github回购和这个答案。简而言之,保持文件大小大于hdfs块大小(128mb,256mb)。

相关问题