使用hive优化的hive数据聚合

oxf4rvwz 于 2021-06-26 发布在 Hive

关注(0)|答案(1)|浏览(499)

我有一个配置单元表（8000万条记录），具有以下架构（event\u id、country、unit\u id、date），我需要按照以下要求将此数据导出到文本文件：1-按event\u id聚合（合并）行。2-聚合行必须按日期排序。
例如，具有相同事件标识的行必须组合为一个列表列表，并根据日期排序。
使用spark进行此项工作的最佳性能解决方案是什么？
注意：这应该是批处理作业。

Hive apache-spark optimization bigdata distributed-computing

来源：https://stackoverflow.com/questions/43807359/optimized-hive-data-aggregation-using-hive

1条答案

按热度按时间

就性能而言，我认为最好的解决方案是编写一个spark程序（scala或python），将底层文件读入hive表，进行转换，然后将输出作为文件写入。
我发现在spark中读取文件要比通过spark查询hive并将结果拉入Dataframe快得多。

赞(0）回复(0）举报 2021-06-26

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 7个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 7个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 8个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 7个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 8个月前