我有一个配置单元表(8000万条记录),具有以下架构(event\u id、country、unit\u id、date),我需要按照以下要求将此数据导出到文本文件:1-按event\u id聚合(合并)行。2-聚合行必须按日期排序。例如,具有相同事件标识的行必须组合为一个列表列表,并根据日期排序。使用spark进行此项工作的最佳性能解决方案是什么?注意:这应该是批处理作业。
7z5jn7bk1#
就性能而言,我认为最好的解决方案是编写一个spark程序(scala或python),将底层文件读入hive表,进行转换,然后将输出作为文件写入。我发现在spark中读取文件要比通过spark查询hive并将结果拉入Dataframe快得多。
1条答案
按热度按时间7z5jn7bk1#
就性能而言,我认为最好的解决方案是编写一个spark程序(scala或python),将底层文件读入hive表,进行转换,然后将输出作为文件写入。
我发现在spark中读取文件要比通过spark查询hive并将结果拉入Dataframe快得多。