如何处理大量Parquet文件

qgelzfjb 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(560)

我在hadoop上使用apache parquet，过了一段时间我有一个问题。当我在hadoop上的spark中生成parquets时，它会变得非常混乱。当我说凌乱，我的意思是Spark工作是产生大量的Parquet文件。当我尝试查询它们时，我正在处理大时间查询，因为spark正在将所有文件合并在一起。
你能告诉我正确的处理方法吗，或者我可能误用了它们？你已经处理过了吗？你是怎么解决的？
更新1：将这些文件合并到一个Parquet地板上的一些“副业”是否足够好？什么尺寸的Parquet文件是首选使用，一些上下边界？

hadoop streaming apache-spark parquet file-type

来源：https://stackoverflow.com/questions/45058368/how-to-deal-with-large-number-of-parquet-files