我使用python库impyla在python脚本中使用impala从hdfs查询数据。具体的数据是代理数据,有很多。我有一个脚本,每天运行拉前一天和运行统计数据。目前我正在使用 devicereceipttime
此查询的字段,存储为时间戳。
from impala.dbapi import connect
from impala.util import as_pandas
import pandas as pd
# Pull desired features from the proxy_realtime_p table
cursor.execute('select request, count(*) as count \
from default.proxy_realtime_p \
where devicereceipttime BETWEEN concat(to_date(now() - interval 1 days), " 00:00:00") and concat(to_date(now() - interval 1 days), " 23:59:59") \
group by request \
order by count desc')
这个查询需要一点时间,如果可能的话,希望加快速度。从下面给定的字段来看,我的查询是最有效的吗?
devicereceipttime (timestamp)
year (int)
month (int)
day (int)
hour (int)
minute (int)
seconds (int)
暂无答案!
目前还没有任何答案,快来回答吧!