sql如何基于条件对数据集进行采样-(teradata db)

f0ofjuux 于 2021-07-24 发布在 Java

关注(0)|答案(2)|浏览(510)

我有150万客户的数据集。我根据一些字段将客户分为12个不同的组，这是分布：

我的任务是只抽取20万个客户的样本，但它必须具有此处显示的相同分布（基于分组百分比）。有什么建议吗？我在teradata数据库中使用sql。

**我在网上寻找一些解决办法，但没有成功。sample（）函数没有为我提供所需的解决方案（或者可能我没有正确使用它），谢谢！

sql teradata Random bigdata sample

来源：https://stackoverflow.com/questions/62773096/sql-how-to-sample-my-dataset-based-on-condition-teradata-db

2条答案

按热度按时间

xqk2d5yq1#

假设分布在一个表中：

select c.*
from (select c.*,
             row_number() over (partition by grp order by random()) as seqnum,
             count(*) over (partition by grp) as grp
      from customers c
     ) c
     distribution d
where seqnum <= c.grp * d.percent * 200000;

这将枚举每个组的值。然后取适当的行数。注意：如果组不够大，则返回的行数将小于200k。
我手头没有teradata，我也不是100%确定 random() 允许进入 row_number() 打电话。如果没有，可以使用其他类似的函数对每组的结果进行随机化。

赞(0）回复(0）举报 2021-07-24

bweufnob2#

如果你想要快速而肮脏的东西，我想你可以用分层抽样法：

SELECT *
FROM mytable t
SAMPLE 
  WHEN group = 0 THEN (.40 * 200000)
  WHEN group = 1 THEN (.17 * 200000)
  WHEN group = 2 THEN (.11 * 200000)
  WHEN group = 3 THEN (.04 * 200000)
  WHEN group = 4 THEN (.06 * 200000)
  WHEN group = 5 THEN (.01 * 200000)
  WHEN group = 6 THEN (.05 * 200000)
  WHEN group = 7 THEN (.05 * 200000)
  WHEN group = 8 THEN (.02 * 200000)
  WHEN group = 9 THEN (.03 * 200000)
  WHEN group = 10 THEN (.04 * 200000)
  WHEN group = 11 THEN (.02 * 200000)
END

请记住，如果一个组中没有足够的行来满足所请求的样本大小，那么最终将得到比预期少的行，除非指定 WITH REPLACEMENT 条款。如果你想要一个“真实”的样本，你需要指定 RANDOMIZED ALLOCATION 条款。
td手册

展开查看全部

赞(0）回复(0）举报 2021-07-24

我来回答

sql如何基于条件对数据集进行采样-(teradata db)

2条答案

相关问题

热门标签

最新问答