我有一个由列表对象组成的rdd对象(例如:[[1,2],[3,4],[5,6]])。我需要取一个样本,然后使用sample()pyspark函数,但是它看起来像是检索第一个元素,而不是随机样本。我当时的想法是对元素进行无序排列,然后使用sample()函数,但我不能进行随机化。
juud5qan1#
你可以用 takeSample :
takeSample
rdd2 = rdd.takeSample(False, 1)
第一个参数是是否使用替换进行采样,第二个参数是要从rdd中采样多少项。
1条答案
按热度按时间juud5qan1#
你可以用
takeSample
:第一个参数是是否使用替换进行采样,第二个参数是要从rdd中采样多少项。