Azure SQL设计建议

at0kjp5o 于 2023-06-07 发布在其他

关注(0)|答案(1)|浏览(168)

我有一个用例，我有一个每小时插入大约3000万行的作业。这是一种我们为某些数据源拍摄的快照，我们只对用于报告目的的最新快照感兴趣，因此一旦新快照数据到来，旧快照数据对我们来说就变得无用，因为报告将基于新快照行。我们有一个名为last_updated_timestamp的字段，它是一个用于确定最新数据的标志，因此一个作业中的所有行都将具有相同的时间戳，我们将max(last_updated_timestamp)用于我们的报告需求。
我们只需要将数据存储20天，并且所有99%的查询都将具有固定格式，因此我们的查询将如下所示：

select * from our_table where store_id = <>, dep_id = <> schedule_day <> and last_updated_timestamp = (max value which is present for that schedule_day for store_id and dep_id)

我的方法：

是创建clustered index on store_id, dep_id, schedule_day, last_updated_timestamp，所以我的查询将非常快。
对于删除旧快照我该怎么办？是否会导致索引碎片化？
schedule_day和last_updated_timestamp值始终递增。每个作业插入当前日期和未来3天的数据，不插入过去的数据。
有什么建议吗？

Azure

来源：https://stackoverflow.com/questions/76346008/azure-sql-design-recommendation

1条答案

按热度按时间

xdyibdwo1#

我的理解是在列store_id、dep_id、schedule_day和last_updated_timestamp上创建一个聚集索引是一个好方法。因为这将有助于在这些列上进行筛选。
对于删除旧快照数据，如您所述，数据将无法用于报告，并将根据新快照行进行删除。
我已经在我的尽头试过了。我已经创建了一个表Daily_table001.With下面的模式。

CREATE TABLE Daily_table001 (
    id INT ,
    data VARCHAR(255),
    last_updated_timestamp DATETIME,
    schedule_day DATE
);

表中有23条记录。具有schedule_day和last_updated_timestamp列。

为id，last_updated_timestamp创建了Clustred索引。选择列和分组依据。

为了删除旧快照，我在表中插入了2个新行，并使用以下查询删除旧记录。

Insert into Daily_table001 values
 (24, 'Data 1', '2023-05-30 12:00:00', '2023-05-30'),
    (25, 'Data 2', '2023-05-30 12:00:00', '2023-05-30')

现在使用删除查询，我们将删除旧快照，并插入具有新last_updated_timestamp和schedule_day（即30）的新记录。

DELETE FROM Daily_table001
WHERE last_updated_timestamp < (
    SELECT MAX(last_updated_timestamp)
    FROM Daily_table001
);

上面的查询将指定整个表中“last_updated_timestamp”值小于最大“last_updated_timestamp”值的行应该被删除。

由于上述删除查询将删除旧记录并插入新记录。
同时也避免了在SQL Server中执行DELETE语句时产生的索引碎片。可以指定填充因子

赞(0）回复(0）举报 2023-06-07

我来回答

Azure SQL设计建议

1条答案

相关问题

热门标签

最新问答