有人知道如何对Pig进行分层抽样吗(维基百科)目前,我做的事情如下:
relation2 = SAMPLE relation1 0.05;
但是我的数据集包含一个标签列,其中有一些是罕见的(例如0.5%),我希望我的随机下采样不要忘记所有这些。谢谢。
shstlldc1#
您可以使用 RANDOM() 然后过滤出值低于0.95的行。因此,如果您想对这个采样进行分层,您可以计算行中包含某个特定值的部分,然后相应地缩放随机值,以便以不同的速率对不同的值进行采样。
RANDOM()
1条答案
按热度按时间shstlldc1#
您可以使用
RANDOM()
然后过滤出值低于0.95的行。因此,如果您想对这个采样进行分层,您可以计算行中包含某个特定值的部分,然后相应地缩放随机值,以便以不同的速率对不同的值进行采样。