在单键和多键分区中哪个性能更好？

djmepvbi 于 2021-06-27 发布在 Hive

关注(0)|答案(2)|浏览(403)

在雅典娜中进行查询时，哪种语法更好，为什么？或者这有什么关系？
按日期简单划分： s3: //example/2018-01-01 或者
每年/月/日的多个分区： s3://example/2018/01/01

Hive presto amazon-s3 Partition amazon-athena

来源：https://stackoverflow.com/questions/53282633/which-is-more-performant-in-single-key-and-multiple-key-partitioning-athena

2条答案

按热度按时间

5lhxktic1#

只有当您知道要查找什么信息时，才能决定哪个分区更有效。当存储的数据太大而无法驻留在单个分区中时，将使用多个分区。使用多个列作为分区键会将数据分成块或桶。数据仍然分组，但分为更小的块。如果集群在向一个节点重复写入数据时遇到热点或拥塞，则这种方法是有效的，因为分区正在大量写入数据。

赞(0）回复(0）举报 2021-06-27

uoifb46i2#

这取决于很多事情。。你的数据量每天，每月等太多的小文件不好雅典娜。另外，如何查询数据也很重要。请看下面的aws文章了解更多信息。
https://aws.amazon.com/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/

赞(0）回复(0）举报 2021-06-27

我来回答

在单键和多键分区中哪个性能更好？

2条答案

相关问题

热门标签

最新问答