mariadb 我在索引方面出了什么问题？还是别的什么问题？

vql8enpb 于 2024-01-09 发布在其他

关注(0)|答案(2)|浏览(175)

请帮助我优化一个单一的查询开始。故事是这样的：我有一个表称为“临时”，其中统计数据行插入非常频繁的一天（大约30 - 50万行插入每天在不规则的时间模式）。每天一次（午夜后），我的工作是选择30-50万行，分组和计算一些数据，并插入到“计算”表。
由于有这么多行，我决定最好运行一个查询来选择每小时的数据，所以我基本上运行了24个选择查询。问题是，选择每小时数据的查询非常慢。大约90秒左右。
首先，一些基本数据。我使用MariaDB，引擎是InnoDB。“temp”表的结构是这样的：

CREATE TABLE temp (
    id                  char(36)              NOT NULL default uuid() PRIMARY KEY,
    device              tinyint    unsigned   NOT NULL,
    country_code        varchar(2)            NOT NULL,
    canvas_id           bigint     unsigned   NOT NULL,
    paid_configured     int        unsigned   NOT NULL,
    paid_count          int        unsigned   NOT NULL,
    non_paid_configured int        unsigned   NOT NULL,
    non_paid_count      int        unsigned   NOT NULL,
    timestamp           timestamp             NOT NULL default current_timestamp() 

) engine = InnoDB;

字符串
我有一个索引：

create index temp_composite_index on temp (
    timestamp,
    canvas_id,
    device,
    country_code
)

型
我试图优化的查询是：

SELECT  canvas_id AS canvas_id,
            device AS device,
            country_code AS country_code,
            SUM(paid_configured) AS paid_configured_sum,
            SUM(paid_count) AS paid_count_sum,
            SUM(non_paid_configured) AS non_paid_configured_sum,
            SUM(non_paid_count) AS non_paid_count_sum
    FROM temp
    WHERE timestamp BETWEEN '2023-12-02 12:00:00' AND '2023-12-02 12:59:59' 
    GROUP BY canvas_id, device, country_code;

型
解释结果为：

{
    "query_block": {
        "select_id": 1,
        "filesort": {
            "sort_key": "temp.canvas_id, temp.device, temp.country_code",
            "temporary_table": {
                "table": {
                    "table_name": "temp",
                    "access_type": "range",
                    "possible_keys": [
                        "temp_composite_index"
                    ],
                    "key": "temp_composite_index",
                    "key_length": "4",
                    "used_key_parts": [
                        "timestamp"
                    ],
                    "rows": 2609006,
                    "filtered": 100,
                    "index_condition": "temp.timestamp between '2023-12-10 12:00:00.000000' and '2023-12-10 12:59:59.000000'"
                }
            }
        }
    }
}

型
其他数据：

{
    "rows_total": 30000000,
    "rows_between_timestamps": 1249369,
    "unique_combinations": {
        "canvas_id": 20,
        "device": 2,
        "country_code": 4
    }
}

型
我已经尝试了许多索引组合和顺序，也改变了在哪里和按列分组的顺序，但似乎没有工作.如果你需要任何其他信息随时要求.谢谢！
编辑：
1.我不知道为什么它决定使用UUID而不是BIGINT_INCREMENT。
1.是的，我总是在插入时使用当前时间戳。

MariaDB版本10.6
1.它符合模式。

mariadb

来源：https://stackoverflow.com/questions/77638912/where-did-i-go-wrong-with-indexing-or-is-it-something-else

2条答案

按热度按时间

rryofs0p1#

关于这一点的一些观察：
1.用90秒的时间从一个活动表中总结出几个兆行并不慢，也没有什么奇怪的SQL巫术能让它快得多。
1.您的结果集看起来相当小--每小时大约160行。
1.您正在对一个表执行历史报告，该表在最近一次只执行了INSERT操作。
1.如果可以更改，则BIGINT AUTO_INCREMENT主键将比DEFAULT UUID()主键更有效。
1.将BETWEEN用于日期范围筛选器是不明智的，因为范围的结尾是包含的。使用此方法时，请注意<比较运算符。

WHERE timestamp >= '2023-12-02 10:00' AND timestamp < '2023-12-02 11:00'

字符串
是我的建议。
1.在一个查询中完成一整天的报告，而不是为每小时运行一个单独的查询。

SELECT  HOUR(timestamp) AS hour,
         canvas_id AS canvas_id,
         device AS device,
         country_code AS country_code,
         SUM(paid_configured) AS paid_configured_sum,
         SUM(paid_count) AS paid_count_sum,
         SUM(non_paid_configured) AS non_paid_configured_sum,
         SUM(non_paid_count) AS non_paid_count_sum
  FROM temp
 WHERE timestamp >= '2023-12-02'
   AND timestamp < '2023-12-02' + INTERVAL 1 DAY 
 GROUP BY HOUR(timestamp), canvas_id, device, country_code;

型
如果使用已有的索引，则所需的工作量与运行24个单独的有时间限制的查询大致相同。
1.因为您要对一个只包含INSERT的表进行历史报告，所以您可以将InnoDB的transaction isolation设置为一个允许级别，以减少INSERT操作和您的报告之间的争用。在您的报告查询之前给予此SQL命令。（不要在具有更复杂事务模式的数据库中执行此操作，除非您深入研究了它的功能，并使您的利益相关者相信它不会产生虚假的结果。）

SET TRANSACTION ISOLATION LEVEL READ UNCOMMITTED;

型
1.您可能会考虑使用所谓的覆盖索引，以便通过顺序扫描索引来满足整个查询。这将为表增加SSD / HDD空间，但如果您迫切需要快速执行此报表查询，则这种折衷可能是值得的。

ALTER TABLE temp
DROP INDEX temp_composite_index,
ADD INDEX temp_composite_index 
    (timestamp, canvas_id, device, country_code,
     paid_configured, paid_count, non_paid_configured, non_paid_count);

型

赞(0）回复(0）举报 2024-01-09

bq3bfh9z2#

在第一个索引列（timestamp）上有一个范围条件，这使得除了“覆盖”之外，不可能使用后续索引列。这意味着所有匹配范围条件（如1 M到3 M）的行必须在临时表中排序以执行GROUP BY操作。
更好的索引应该支持时间戳的日期-小时部分的相等条件。您可以使用虚拟（生成）列创建这样的索引。示例：

alter table temp
  add column virtual_date date as (date(timestamp)),
  add column virtual_hour tinyint unsigned as (hour(timestamp)),
  add index idx_virtual_date_hour_sum (
    virtual_date,
    virtual_hour, 
    canvas_id, 
    device, 
    country_code
  );

字符串
现在可以将WHERE子句更改为

WHERE virtual_date = '2023-12-02' AND virtual_hour = 12

型
而 filesort 应该在执行计划中消失。
更进一步的优化是在索引中包含所有其他列（使其覆盖），以便查询可以对该索引进行操作。

alter table temp
  add column virtual_date date as (date(timestamp)),
  add column virtual_hour tinyint unsigned as (hour(timestamp)),
  add index idx_virtual_date_hour_cov (
    virtual_date,
    virtual_hour, 
    canvas_id, 
    device,
    country_code,
    paid_configured,
    paid_count,
    non_paid_configured,
    non_paid_count
  );

型
这将是新查询的完美索引。
不要忘记每个索引都会降低写操作的速度，索引越大（列越多），开销越大。
如果这在一个小时内运行良好，您也可以尝试每天查询：

alter table temp
  add column virtual_date date as (date(timestamp)),
  add index idx_virtual_date_cov (
    virtual_date,
    canvas_id, 
    device,
    country_code,
    paid_configured,
    paid_count,
    non_paid_configured,
    non_paid_count
  );

型
WHERE子句：

WHERE virtual_date = '2023-12-02'

型
我也想看看Partitioning。它可以改善这两个-读和写，如果你保持旧的数据，但几乎没有出来。

赞(0）回复(0）举报 2024-01-09

我来回答

mariadb 我在索引方面出了什么问题？还是别的什么问题？

2条答案

相关问题

热门标签

最新问答