基于时间的目录结构apachedrill

fhity93d 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(359)

我有按日期和时间组织的csv文件，如下所示

logs/YYYY/MM/DD/CSV files...

我已经设置了apachedrill在这些csv文件上执行sql查询。因为有很多csv文件；可以利用文件的组织来优化性能。例如，

SELECT * from data where trans>='20170101' AND trans<'20170102';

在这个sql中，目录 logs/2017/01/01 应扫描数据。有没有办法让apachedrill基于这个目录结构进行优化？在Hive、 Impala 或其他工具中是否可以做到这一点？
请注意：
sql查询几乎总是包含时间范围。
给定目录中的csv文件数量不是很大。加上多年的数据，这将是巨大的
每个csv文件中都有一个名为“trans”的字段，其中包含日期和时间。
csv文件根据“trans”字段的值放在适当的目录下。
csv文件不遵循任何模式。列可以不同，也可以不不同。

hadoop Hive presto apache-spark apache-drill

来源：https://stackoverflow.com/questions/46249110/time-based-directory-structure-apache-drill

1条答案

按热度按时间

7y4bm7vi1#

在数据文件中使用列进行查询无助于分区修剪。
您可以在drill中使用dir*变量来引用表中的分区。

create view trans_logs_view as 
select
 `dir0` as `tran_year`,
 `dir1` as `trans_month`,
 `dir2` as `tran_date`, * from dfs.`/data/logs`;

您可以使用tran\u year、tran\u month和tran\u date列查询分区修剪。
还要看看下面的查询是否有助于修剪。

select count(1)  from dfs.`/data/logs` 
where concat(`dir0`,`dir1`,`dir2`) between '20170101' AND '20170102';

如果是这样，可以通过别名concat来定义视图( dir0 , dir1 , dir2 )至 trans 列名和查询。
详见下文。
https://drill.apache.org/docs/how-to-partition-data/

赞(0）回复(0）举报 2021-05-29

我来回答

基于时间的目录结构apachedrill

1条答案

相关问题

热门标签

最新问答