如何在pyspark中随机生成/分割数据

xj3cbfub  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(786)

apache spark中的以下scala代码行将在8个分区中随机分割数据:

  1. import org.apache.spark.sql.functions.rand
  2. df
  3. .repartition(8, col("person_country"), rand)
  4. .write
  5. .partitionBy("person_country")
  6. .csv(outputPath)

有人能教我怎么用Pypark做同样的事情吗?我自己用下面的代码尝试过,但是失败了

  1. from pyspark.sql.functions import rand
  2. df\
  3. .repartition(8, col("person_country"), rand)\
  4. .write.partitionBy("person_country")\
  5. .format('csv').mode('Overwrite')\
  6. .save("outputPath")

有什么想法吗?

wz8daaqr

wz8daaqr1#

repartition(8, col("person_country"), rand()) 在rand后面加括号

相关问题