我对hive和hadoop还不太熟悉。我有一个查询需要10分钟才能完成。
数据大小为10gb/statistics:num rows:4457541数据大小:1854337449基本统计信息:完整列统计信息:完整
在表中进行分区和扣合。
如何改进下面的查询。
select * fromtbl1 where clmn='Abdul' and loc='IND' and TO_UNIX_TIMESTAMP(ts) > (UNIX_TIMESTAMP() - 5*60*60);
set hive.vectorized.execution.reduce.enabled=true;
set hive.tez.container.size=8192;
set hive.fetch.task.conversion = none;
set mapred.compress.map.output=true;
set mapred.output.compress=true;
set hive.fetch.task.conversion=none;
-----------+--+
| Explain |
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+--+
| Plan not optimized by CBO. |
| |
| Stage-0 |
| Fetch Operator |
| limit:-1 |
| Stage-1 |
| Map 1 |
| File Output Operator [FS_2973] |
| compressed:false |
| Statistics:Num rows: 49528 Data size: 24516360 Basic stats: COMPLETE Column stats: COMPLETE |
| table:{"input format:":"org.apache.hadoop.mapred.TextInputFormat","output format:":"org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat","serde:":"org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe"} |
| Select Operator [SEL_2972] |
| outputColumnNames:["_col0","_col1","_col2","_col3","_col4","_col5","_col6","_col7"] |
| Statistics:Num rows: 49528 Data size: 24516360 Basic stats: COMPLETE Column stats: COMPLETE |
| Filter Operator [FIL_2971] |
| predicate:((section = 'xysaa') and (to_unix_timestamp(ts) > (unix_timestamp() - 18000))) (type: boolean) |
| Statistics:Num rows: 49528 Data size: 24516360 Basic stats: COMPLETE Column stats: COMPLETE |
| TableScan [TS_2970] |
| ACID table:true |
| alias:pp |
| Statistics:Num rows: 4457541 Data size: 1854337449 Basic stats: COMPLETE Column stats: COMPLETE |
| |
+-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------+--+
这些参数都没有帮助我们在较短的时间内解决查询。
1条答案
按热度按时间3hvapo4f1#
根据计划,查询在mapper上运行,未启用矢量化。试试这个:
调整Map器并行度:
使用这些设置可以增加正在运行的Map程序的数量。理想情况下,它应该在没有此设置的情况下运行:
另一个建议是
unix_timestamp()
与UNIX_TIMESTAMP(current_timestamp)
. 这个函数是不确定的,并且它的值对于查询执行的范围不是固定的,因此妨碍了对查询的适当优化—从2.0开始,这个函数就被弃用,取而代之的是CURRENT_TIMESTAMP
不变。你的文件也很小。分区大小为200-500,每个分区12个文件,文件大小为20-50mb。幸运的是,它是orc,您可以使用altertable concatenate命令连接文件。12个文件不是什么大问题,当查询单个分区时,您可能不会注意到改进。
另请参见以下答案:https://stackoverflow.com/a/48487306/2700344