postgresql Postgres中的快速随机行选择

o3imoua4 于 2022-12-18 发布在 PostgreSQL

关注(0)|答案(8)|浏览(142)

我在postgres中有一个表，它包含几百万行，我在网上查了一下，发现了以下内容

SELECT myid FROM mytable ORDER BY RANDOM() LIMIT 1;

它可以工作，但速度非常慢...有没有其他方法来进行查询，或者直接选择一个随机行而不阅读整个表？顺便说一下，'myid'是一个整数，但它可以是一个空字段。

postgresql

来源：https://stackoverflow.com/questions/5297396/quick-random-row-selection-in-postgres

8条答案

按热度按时间

x4shl7ld1#

您可能希望尝试使用OFFSET，例如

SELECT myid FROM mytable OFFSET floor(random() * N) LIMIT 1;

N是mytable中的行数。您可能需要首先执行SELECT COUNT(*)以计算N的值。

更新（安东尼哈奇金斯）

必须在此处使用floor：

SELECT myid FROM mytable OFFSET floor(random() * N) LIMIT 1;

考虑一个2行的表; random()*N生成0 <= x < 2，例如SELECT myid FROM mytable OFFSET 1.7 LIMIT 1;返回0行，因为隐式舍入到最接近的整数。

赞(0）回复(0）举报 2022-12-18

4nkexdtk2#

PostgreSQL 9.5引入了一种新的方法，可以更快地选择样本：TABLESAMPLE
语法为

SELECT * FROM my_table TABLESAMPLE BERNOULLI(percentage);
SELECT * FROM my_table TABLESAMPLE SYSTEM(percentage);

如果您只想选择一行，这不是最佳解决方案，因为您需要知道表的COUNT才能计算准确的百分比。
要避免慢速COUNT并对从1行到数十亿行的表使用快速TABLESAMPLE，可以执行以下操作：

SELECT * FROM my_table TABLESAMPLE SYSTEM(0.000001) LIMIT 1;
 -- if you got no result:
 SELECT * FROM my_table TABLESAMPLE SYSTEM(0.00001) LIMIT 1;
 -- if you got no result:
 SELECT * FROM my_table TABLESAMPLE SYSTEM(0.0001) LIMIT 1;
 -- if you got no result:
 SELECT * FROM my_table TABLESAMPLE SYSTEM(0.001) LIMIT 1;
 ...

这可能看起来不那么优雅，但可能比其他任何答案都要快。
要决定是否使用BERNULLI或SYSTEM，请阅读http://blog.2ndquadrant.com/tablesample-in-postgresql-9-5-2/上的差异

赞(0）回复(0）举报 2022-12-18

ezykj2lf3#

我用一个子查询试过了，效果很好。偏移，至少在Postgresql v8. 4. 4中效果很好。

select * from mytable offset random() * (select count(*) from mytable) limit 1 ;

赞(0）回复(0）举报 2022-12-18

5lhxktic4#

您需要使用floor：

SELECT myid FROM mytable OFFSET floor(random()*N) LIMIT 1;

赞(0）回复(0）举报 2022-12-18

8ulbf1ek5#

查看此链接了解一些不同的选项。http://www.depesz.com/index.php/2007/09/16/my-thoughts-on-getting-random-row/

最新情况：（A.Hatchkins）

这篇（很）长的文章摘要如下。
作者列举了四种方法：
1)ORDER BY random() LIMIT 1;--慢速
2)ORDER BY id where id>=random()*N LIMIT 1-如果有间隙，则为非均匀
3)随机列--需要不时更新
4)自定义random aggregate--巧妙的方法，可能很慢：random（）需要生成N次
并建议通过使用以下方法改进方法#2
5)ORDER BY id where id=random()*N LIMIT 1，如果结果为空，则执行后续重新查询。

赞(0）回复(0）举报 2022-12-18

webghufk6#

获取随机行最简单、最快的方法是使用tsm_system_rows扩展：

CREATE EXTENSION IF NOT EXISTS tsm_system_rows;

然后可以选择所需的确切行数：

SELECT myid  FROM mytable TABLESAMPLE SYSTEM_ROWS(1);

PostgreSQL 9.5及更高版本提供此功能。
参见：https://www.postgresql.org/docs/current/static/tsm-system-rows.html

赞(0）回复(0）举报 2022-12-18

eivnm1vs7#

我已经想出了一个不需要TABLESAMPLE的快速解决方案，比OFFSET random()*N LIMIT 1快得多，甚至不需要计算表数。
其思想是使用随机但可预测的数据创建表达式索引，例如md5(primary key)。
下面是使用1 M行样本数据进行的测试：

create table randtest (id serial primary key, data int not null);

insert into randtest (data) select (random()*1000000)::int from generate_series(1,1000000);

create index randtest_md5_id_idx on randtest (md5(id::text));

explain analyze
select * from randtest where md5(id::text)>md5(random()::text)
order by md5(id::text) limit 1;

结果：

Limit  (cost=0.42..0.68 rows=1 width=8) (actual time=6.219..6.220 rows=1 loops=1)
   ->  Index Scan using randtest_md5_id_idx on randtest  (cost=0.42..84040.42 rows=333333 width=8) (actual time=6.217..6.217 rows=1 loops=1)
         Filter: (md5((id)::text) > md5((random())::text))
         Rows Removed by Filter: 1831
 Total runtime: 6.245 ms

此查询有时可能（概率约为1/Number_of_rows）返回0行，因此需要检查并重新运行。而且概率并不完全相同-某些行比其他行更可能。
比较：

explain analyze SELECT id FROM randtest OFFSET random()*1000000 LIMIT 1;

型
结果差异很大，但可能相当糟糕：

Limit  (cost=1442.50..1442.51 rows=1 width=4) (actual time=179.183..179.184 rows=1 loops=1)
   ->  Seq Scan on randtest  (cost=0.00..14425.00 rows=1000000 width=4) (actual time=0.016..134.835 rows=915702 loops=1)
 Total runtime: 179.211 ms
(3 rows)

赞(0）回复(0）举报 2022-12-18

wgxvkvu98#

我向每一行添加了一个随机生成的数字，并在我的编程语言中生成一个添加到每一行的随机数。调用时，我将一个随机数传递给查询（在本例中为0. 27）

SELECT * FROM
(
  (SELECT id, random FROM t where <condition> and random >= 0.27 ORDER BY random LIMIT 1)
  UNION ALL
  (SELECT id, random FROM t where <condition> and random < 0.27 ORDER BY random DESC LIMIT 1)
) as results
ORDER BY abs(0.27-random) LIMIT 1;

（查询取自here）
如果在条件行和随机行（包含随机数）上有一个索引，那么在这个850万行的表上，我会在6毫秒内得到一个结果，这比使用order by random（）之类的方法快了几个数量级。
为了提高随机性，您还可以为您命中的每个结果生成一个新的随机数。（如果不这样做，某些数字将比其他数字出现得更频繁。）
与TABLESAMPLE不同，它还支持条件。

赞(0）回复(0）举报 2022-12-18

我来回答

postgresql Postgres中的快速随机行选择

8条答案

相关问题

热门标签

最新问答