为什么PostgreSQL在多次插入过程中使用的内存比复制多？

lqfhib0f 于 2023-04-29 发布在 PostgreSQL

关注(0)|答案(1)|浏览(159)

我一直在使用Laurenz Albe的博客https://www.cybertec-postgresql.com/en/postgresql-bulk-loading-huge-amounts-of-data/练习批量加载。当我稍微改变它的时候，问题就开始了。表是一样的：

CREATE TABLE t_sample
(
     a              varchar(50),
     b              int,
     c              varchar(50),
     d              int
);

而不是

BEGIN;
INSERT INTO t_sample VALUES ('abcd', 1, 'abcd', 1);
INSERT INTO t_sample VALUES ('abcd', 1, 'abcd', 1);
INSERT INTO t_sample VALUES ('abcd', 1, 'abcd', 1);
…
COMMIT;`

我用

BEGIN;
INSERT INTO t_sample VALUES
('abcd', 1, 'abcd', 1),
('abcd', 1, 'abcd', 1),
('abcd', 1, 'abcd', 1),
…
COMMIT;

对于那些不想读博客的人：我尝试比较COPY和insert方法之间的内存消耗。
此外，我使用了2097152条记录而不是100万条记录。我将这些命令保存为一个文件 multipleinsert。SQL 并像psql -d load_test -f multipleinsert.sql一样运行它。
另外，正如在博客中所述，我使用了COPY方法，如下所示（当然，记录数相同，2097152）

COPY t_sample FROM stdin;
abcd 1 abcd 1
abcd 1 abcd 1
abcd 1 abcd 1
...

插入14的执行时间。543 s，COPY为1。237.然而，这不是我想比较的重点。当我使用COPY时，服务器上的可用内存几乎没有减少，但在执行insert语句期间，可用内存减少了近6，5 GB。包含insert语句本身的文件将近49 MB，所以PostgreSQL尝试缓存它，但为什么它会扩展到~6，5GB？是否有一种计算方法来（粗略地）计算PostgreSQL在这样的加载中所消耗的内存？
注意：How does COPY work and why is it so much faster than INSERT?，很好地说明了为什么COPY比insert快，但这篇文章和互联网上的任何其他文章都没有说明内存消耗。

postgresql

来源：https://stackoverflow.com/questions/76067692/why-does-postgresql-use-so-much-memory-during-multiple-insert-than-copy