仅基于月/年对配置单元表进行分区或bucketing以优化查询

6tqwzwtp 于 2021-05-30 发布在 Hadoop

关注(0)|答案(2)|浏览(291)

hadoop Hive

来源：https://stackoverflow.com/questions/27787271/partitioning-or-bucketing-hive-table-based-on-only-month-year-to-optimize-querie

2条答案

按热度按时间

svmlkihl1#

查看Hive内置的自定义项。有了正确的组合，你就能达到你想要的。下面是一个对每个月进行分区的示例（生成可以用作分区列值的“年-月”字符串）：

select concat(cast(year(to_date(create_dt)) as string),'-',cast(month(to_date(create_dt)) as string))

但是，在对日期进行分区时，通常有多个级别的日期维度是有用的，因此在这种情况下，您应该有两个分区列，第一个用于年，第二个用于月：

select year(to_date(create_dt)),month(to_date(create_dt))

请记住，时间戳和日期是字符串，像month（）或year（）这样的函数返回整数作为日期字段的值。您可以使用简单的数学运算来找出正确的分区。

赞(0）回复(0）举报 2021-05-30

jhdbpxl92#

我认为这可能是一个过早优化的情况。我不确定您对“太多分区”的定义是什么，但我们有一个类似的用例。我们的表是按日期和客户列划分的。我们的数据可以追溯到2013年3月。这创建了大约160k+个分区。我们还在date上使用了一个过滤器，我们还没有看到这个模式有任何性能问题。
另一方面，hive在将数千个分区和表扩展到100个方面做得越来越好。
另一方面，我很好奇为什么你要用Hive来做这个。40万行数据量很小，不太适合配置单元。

赞(0）回复(0）举报 2021-05-30

我来回答

仅基于月/年对配置单元表进行分区或bucketing以优化查询

2条答案

相关问题

热门标签

最新问答