我需要将分区保存到文本文件中,每个分区使用不同的名称。但是在代码段下面运行时,只有一个文件通过覆盖上一个分区来保存。
def chunks(iterator):
chunks.counter += 1
l = (list(iterator))
df = pd.DataFrame(l,index=None)
df.to_csv(parent_path+"C"+str(chunks.counter+1)+".txt", header=None, index=None, sep=' ')
chunks.counter=0
sc.parallelize([1,2,3,4,5,6],num_partions).foreachPartition(chunks)
有没有什么方法可以让我知道pyspark中当前运行的是哪个分区?
1条答案
按热度按时间nszi6y051#
甚至可以轻松地将其 Package 到joblib中;)在我看来,我们不需要Pypark。。