我在hadoop上使用apache parquet,过了一段时间我有一个问题。当我在hadoop上的spark中生成parquets时,它会变得非常混乱。当我说凌乱,我的意思是Spark工作是产生大量的Parquet文件。当我尝试查询它们时,我正在处理大时间查询,因为spark正在将所有文件合并在一起。
你能告诉我正确的处理方法吗,或者我可能误用了它们?你已经处理过了吗?你是怎么解决的?
更新1:将这些文件合并到一个Parquet地板上的一些“副业”是否足够好?什么尺寸的Parquet文件是首选使用,一些上下边界?
2条答案
按热度按时间s5a0g9ez1#
减少输出文件数量的一个好方法是使用
coalesce
或者repartition
.68bkxrlz2#
看看这个github回购和这个答案。简而言之,保持文件大小大于hdfs块大小(128mb,256mb)。