cloudera将基于 parquet 的 Impala 迁移到基于Kudu的 Impala 的最佳实践是什么

myss37ts 于 2021-06-26 发布在 Impala

关注(0)|答案(0)|浏览(244)

我们使用cloudera作为hadoop环境。
有没有人能提供一些关于如何将现有的Parquet地板/ Impala 整合或迁移到Kudu/ Impala 的指南，以期对我们现有的生产线进行性能改进？
我们现有的管道简介如下：
我们接收csv/xlsx的数据；
我们把它们移到hdfs上；
我们将它们以Parquet的形式保存到另一个位置；
我们在impala中创建外部表，其位置指向分区的parquet数据；
我们在pyspark、sparkscala和sparksql中完成etl工作；
我们将分析结果输出到csv。
现有管道正在按预期工作，但是，随着数据保持持续增长，管道所需的时间/资源也在增加。
我们想知道什么是最好的做法迁移Parquet为基础的 Impala 到Kudu为基础的 Impala 更好的整体性能？
非常感谢你。

impala apache-kudu cloudera

来源：https://stackoverflow.com/questions/53854092/what-is-the-best-practice-from-cloudera-to-migrate-the-parquet-based-impala-to-k

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

cloudera将基于 parquet 的 Impala 迁移到基于Kudu的 Impala 的最佳实践是什么

暂无答案！

相关问题

热门标签

最新问答