Pig的分层抽样?

gxwragnw  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(408)

有人知道如何对Pig进行分层抽样吗(维基百科)
目前,我做的事情如下:

relation2 = SAMPLE relation1 0.05;

但是我的数据集包含一个标签列,其中有一些是罕见的(例如0.5%),我希望我的随机下采样不要忘记所有这些。
谢谢。

shstlldc

shstlldc1#

您可以使用 RANDOM() 然后过滤出值低于0.95的行。因此,如果您想对这个采样进行分层,您可以计算行中包含某个特定值的部分,然后相应地缩放随机值,以便以不同的速率对不同的值进行采样。

相关问题