在雅典娜中进行查询时,哪种语法更好,为什么?或者这有什么关系?按日期简单划分: s3: //example/2018-01-01 或者每年/月/日的多个分区: s3://example/2018/01/01
s3: //example/2018-01-01
s3://example/2018/01/01
5lhxktic1#
只有当您知道要查找什么信息时,才能决定哪个分区更有效。当存储的数据太大而无法驻留在单个分区中时,将使用多个分区。使用多个列作为分区键会将数据分成块或桶。数据仍然分组,但分为更小的块。如果集群在向一个节点重复写入数据时遇到热点或拥塞,则这种方法是有效的,因为分区正在大量写入数据。
uoifb46i2#
这取决于很多事情。。你的数据量每天,每月等太多的小文件不好雅典娜。另外,如何查询数据也很重要。请看下面的aws文章了解更多信息。https://aws.amazon.com/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/
2条答案
按热度按时间5lhxktic1#
只有当您知道要查找什么信息时,才能决定哪个分区更有效。当存储的数据太大而无法驻留在单个分区中时,将使用多个分区。使用多个列作为分区键会将数据分成块或桶。数据仍然分组,但分为更小的块。如果集群在向一个节点重复写入数据时遇到热点或拥塞,则这种方法是有效的,因为分区正在大量写入数据。
uoifb46i2#
这取决于很多事情。。你的数据量每天,每月等太多的小文件不好雅典娜。另外,如何查询数据也很重要。请看下面的aws文章了解更多信息。
https://aws.amazon.com/blogs/big-data/top-10-performance-tuning-tips-for-amazon-athena/