我们正在使用tez执行引擎将数据加载到配置单元表中。我们用来加载的作业处于运行状态,但是在应用程序id的ambari上,我们看到它成功了,从日志中我们可以看到它被卡住了。它有大约90个分区,而且卷也非常相似。作业每天运行,并加载大约3个月的数据。
卡住的日志示例:
Partition aa.db.tablename{dt=2020-02-06} stats: [numFiles=42, numRows=265732, totalSize=9005011, rawDataSize=34024246]
Partition aa.db.tablename{dt=2020-02-07} stats: [numFiles=42, numRows=265853, totalSize=9310285, rawDataSize=34399056]
成功日志示例:
Partition aa.db.tablename{dt=2020-02-06} stats: [numFiles=42, numRows=265732, totalSize=9005011, rawDataSize=34024246]
Partition aa.db.tablename{dt=2020-02-07} stats: [numFiles=42, numRows=265853, totalSize=9310285, rawDataSize=34399056]
OK
Time taken: 1385.571 seconds
1条答案
按热度按时间t1rydlwq1#
将此属性设置为false有助于我们加载数据
set hive.stats.autogather=false;
由于我们有400多个分区,我们还禁用了set hive.stats.fetch.partition.stats=false;
但这更多的是止血和临时补片。