使用hive优化的hive数据聚合

oxf4rvwz  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(450)

我有一个配置单元表(8000万条记录),具有以下架构(event\u id、country、unit\u id、date),我需要按照以下要求将此数据导出到文本文件:1-按event\u id聚合(合并)行。2-聚合行必须按日期排序。
例如,具有相同事件标识的行必须组合为一个列表列表,并根据日期排序。
使用spark进行此项工作的最佳性能解决方案是什么?
注意:这应该是批处理作业。

7z5jn7bk

7z5jn7bk1#

就性能而言,我认为最好的解决方案是编写一个spark程序(scala或python),将底层文件读入hive表,进行转换,然后将输出作为文件写入。
我发现在spark中读取文件要比通过spark查询hive并将结果拉入Dataframe快得多。

相关问题