我在做一些Pypark的工作。
我使用一个Parquet文件作为源代码,有3列。
其中之一需要将我的Dataframe导出到以制表符分隔的文本文件。我可以使用以下操作执行此操作:
`df.write.option("text").csv("output_file"`)
但是,它导出的是csv文件而不是文本文件。我能看到的导出文本文件的唯一方法是只导出一个列,但使用该选项时,我松开了分隔符部分。例如:
df = df.select(concat_aws('\t',*result.columns).alias('data'))
像我在csv导出时那样用分隔符导出文本文件,有什么更相似的方法?例如,在scala中,这非常简单:
df.map(row => row.mkString("\t")).write.text("")
python上有等价的东西吗?
谢谢!
1条答案
按热度按时间cgh8pdjw1#
你的尝试
csv
方法几乎正确,只需将分隔符从默认值(逗号)更改为制表符:请注意,csv实际上是一种文本格式(您可以使用文本编辑器查看它;它包含表格数据,其中行由新行字符分隔,字段由逗号分隔)。以制表符分隔的变体有时称为tsv。