我使用spark将数据写入分区。给定一个包含两列的数据集 (foo, bar)
,如果我这样做的话 df.write.mode("overwrite").format("csv").partitionBy("foo").save("/tmp/output")
,我得到
/tmp/output/foo=1/X.csv
/tmp/output/foo=2/Y.csv
...
但是,输出csv文件仅包含 bar
,不是 foo
. 我知道 foo
已在目录名中捕获 foo=N
,但是否也可以包括 foo
在csv文件中?
1条答案
按热度按时间hiz5n14c1#
仅当您以不同的名称制作副本时: