hive启动时间大于执行时间

ffx8fchx  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(259)

hive启动mapreduce作业所用的时间比hadoop实际执行它所用的时间要长。这是正在激发查询的表详细信息。

CREATE EXTERNAL TABLE A
(
    user_id string,
    stage strig,
    url string
)

PARTITIONED BY (dt string , id string)

表的所有数据都存储在s3中,每天大约有2000个惟一id,即每天添加2000个分区。我们可以假设每个分区平均有100mb的gzip压缩数据。
现在当我运行一个类似于 SELECT DISTINCT user_id FROM A WHERE dt>='20150101' and dt <= '20150401' “即在3个月约60000个分区的时间内,启动map reduce作业大约需要2小时,启动的作业仅需20分钟即可完成。
所以我想知道是否有人能帮我理解Hive在这两个小时里在做什么?非常感谢你的帮助。提前谢谢!!!!

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题