尽管有索引，但使用group by查询的distinct计数太慢

hgqdbh6s 于 2021-06-23 发布在 Mysql

关注(0)|答案(3)|浏览(406)

我有以下查询，统计每周每个区域的船只数量：

SELECT zone, 
    DATE_FORMAT(creation_date, '%Y%u') AS date, 
    COUNT(DISTINCT vessel_imo) AS vessel_count 
  FROM vessel_position
  WHERE zone IS NOT NULL
   AND creation_date >= DATE_SUB(CURDATE(), INTERVAL 12 MONTH)
  GROUP BY zone, date;

这个表有大约4000万行。这方面的执行计划是：

+----+-------------+-----------------+------------+-------+--------------------+------+---------+------+----------+----------+------------------------------------------+
| id | select_type | table           | partitions | type  | possible_keys      | key  | key_len | ref  | rows     | filtered | Extra                                    |
+----+-------------+-----------------+------------+-------+--------------------+------+---------+------+----------+----------+------------------------------------------+
|  1 | SIMPLE      | vessel_position | NULL       | range | creation_date,zone | zone | 5       | NULL | 21190904 |    50.00 | Using where; Using index; Using filesort |
+----+-------------+-----------------+------------+-------+--------------------+------+---------+------+----------+----------+------------------------------------------+

柱 vessel_imo , zone 以及 creation_date 每个索引。主键是复合键( vessel_imo , creation_date ).
当我查看查询配置文件时，我可以看到我花了大量时间 Creating sort index .
我能做些什么来进一步改进这个查询吗？

mysql query-optimization

来源：https://stackoverflow.com/questions/50525193/distinct-count-with-group-by-query-is-too-slow-despite-indexes

3条答案

按热度按时间

ftf50wuq1#

假设数据一旦插入，就不会更改，然后构建并维护一个摘要表。
该表将有三列：区域、周和该周的计数。在每周开始时，只构建前一周的行（每个区域一行；跳过 NULL ). 然后构建一个针对该表的查询——它将非常快，因为它将获取更少的行。
与此同时 INDEX(creation_date, zone, vessel_imo) 作为二级索引，将使每周任务的效率合理（大约是当前查询的52倍）。

赞(0）回复(0）举报 2021-06-23

ffx8fchx2#

设置@mystartdate=date\u sub（curdate（），间隔12个月）；
选择区域，日期格式（创建日期，“%y%u”）作为日期，计数（不同的容器\u imo）作为容器计数，从容器位置创建日期>=@mystartdate和区域>0按区域，日期分组；
可能提供结果在较短的时间内，请张贴您的比较时间第二次运行的每一个（旧的和建议的）
请张贴新的解释选择…以确认创建日期的索引现在使用。
除非旧的数据被允许改变，为什么你要收集12个月的历史，1个多月前的数字是不会改变的。

赞(0）回复(0）举报 2021-06-23

6vl6ewon3#

这取决于筛选条件的选择性以及表结构。过滤条件是否选择了20%的行，5%，1%，0.1%？
如果你的答案不到5%，那么以下索引可能会有所帮助：

create index ix1_date_zone on vessel_position (creation_date, zone);

如果您的表有许多和/或重列，则此选项可能仍然很慢，具体取决于筛选条件的选择性。
否则，您可以尝试使用更昂贵的索引，以避免使用表并执行以下操作：

create index ix2_date_zone_imo on vessel_position 
  (creation_date, zone, vessel_imo);

这个索引的维护成本更高——读取 insert , update , delete 排成一排——但对你的孩子来说会更快 select .
两种选择都可以尝试，并根据您的需要选择最好的。

赞(0）回复(0）举报 2021-06-23

我来回答

尽管有索引，但使用group by查询的distinct计数太慢

3条答案

相关问题

热门标签

最新问答