使用pyspark对rdd对象的元素进行随机洗牌/重新排序

9njqaruj 于 2021-07-14 发布在 Spark

关注(0)|答案(1)|浏览(452)

我有一个由列表对象组成的rdd对象（例如：[[1,2]，[3,4]，[5,6]]）。我需要取一个样本，然后使用sample（）pyspark函数，但是它看起来像是检索第一个元素，而不是随机样本。
我当时的想法是对元素进行无序排列，然后使用sample（）函数，但我不能进行随机化。

rdd python apache-spark pyspark

来源：https://stackoverflow.com/questions/67105744/shuffle-reorder-randomly-the-element-of-an-rdd-object-with-pyspark

1条答案

按热度按时间

你可以用 takeSample :

rdd2 = rdd.takeSample(False, 1)

第一个参数是是否使用替换进行采样，第二个参数是要从rdd中采样多少项。

赞(0）回复(0）举报 2021-07-14

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 5个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 5个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 5个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 5个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 5个月前