hadoop分区方法，可以帮助避免在hive分区查询中指定相同的信息或列？

bqf10yzr 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(448)

我有每天最多5-10 gb数据的日常事务。在我看来，按月份划分更有意义。。
举个例子：
我的表包含以下列：
事务处理日期时间戳—事务处理日期
交易金额整数-交易金额
dwhèu partition string—进入按节分区的技术字段
现在我想查询2015年1月15日到2015年11月15日之间的交易金额。
我的问题是

select sum(TRANSACTION_AMOUNT) from TEST where TRANSACTION_DATE >= CAST('2015-01-15' as timestamp) AND TRANSACTION_DATE < CAST('2015-11-15' as timestamp)

此查询返回正确的数据，但它执行完整表扫描，而我希望它只使用分区2015-01、2015-02。。。。2015-11.
为此，我需要手动指定应该使用哪些分区，以便查询如下：

select sum(TRANSACTION_AMOUNT) from TEST where TRANSACTION_DATE >= CAST('2015-01-15' as timestamp) AND TRANSACTION_DATE < CAST('2015-11-15' as timestamp) and DWH_PARTITION in ('2015-01',.........'2015-11');

因为我们不能按时间戳进行分区，所以业务分析师必须知道确切的分区模式（给定的表是否按月份、日期等进行分区）。
还请注意，有关日期的信息需要指定两次：一次用于事务日期，另一次用于分区。
您知道一些分区方法吗？这些方法可以帮助避免两次指定相同的信息，并且使用户不必知道他们需要查询的所有表的分区模式？

hadoop Hive bigdata data-science data-analysis

来源：https://stackoverflow.com/questions/34437357/partitioning-method-that-can-help-to-avoid-having-to-specify-the-same-informatio

1条答案

按热度按时间

它只能通过范围分区来实现，目前不受支持。也许自定义项会有帮助，但100%不确定。
我们通过提供简单的web界面解决了这个问题，用户可以在这个界面中选择表、过滤列，并且under-the-covers应用程序足够智能，能够利用分区修剪生成查询。

赞(0）回复(0）举报 2021-05-30

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 9个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 9个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 9个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 9个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 8个月前