如何在pyspark中随机生成/分割数据

xj3cbfub 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(786)

apache spark中的以下scala代码行将在8个分区中随机分割数据：

import org.apache.spark.sql.functions.rand
df
.repartition(8, col("person_country"), rand)
.write
.partitionBy("person_country")
.csv(outputPath)

有人能教我怎么用Pypark做同样的事情吗？我自己用下面的代码尝试过，但是失败了

from pyspark.sql.functions import rand
df\
  .repartition(8, col("person_country"), rand)\
  .write.partitionBy("person_country")\
  .format('csv').mode('Overwrite')\
  .save("outputPath")

有什么想法吗？

scala apache-spark pyspark

来源：https://stackoverflow.com/questions/63828680/how-to-generate-split-data-randomly-in-pyspark

1条答案

按热度按时间

wz8daaqr1#

repartition(8, col("person_country"), rand()) 在rand后面加括号

赞(0）回复(0）举报 2021-05-27

我来回答

如何在pyspark中随机生成/分割数据

1条答案

相关问题

热门标签

最新问答