pyspark 禁用双引号

dtcbnfnu  于 2023-04-19  发布在  Spark
关注(0)|答案(1)|浏览(92)

当我使用下面的代码时,它在数据的开始和结束处添加双引号。理想情况下,这是有效的,因为我告诉它是一个管道删除的文件,管道将进入数据。但是我有一个要求,不要在数据的开始和结束处添加双引号。有没有一种方法可以实现这一点?

data = [{"Cnt": 'A|1'},{"Cnt": 'B|2'}]
rdd = sc.parallelize(data)
df_test = rdd.toDF()   
df_test.repartition(1).write.option('header','false').option("delimiter",'|').option("quoteAll", 'false').option("quote", None).mode("overwrite").csv(path_of_file)

导出后文件中的数据如下所示

"A|1"
"B|2"

但我需要像下面这样的文件中的数据。

A|1
B|2

Apache Spark版本- 3.3.1

mrphzbgm

mrphzbgm1#

我复制了你所做的相同的代码,即使我得到了引号中的数据,如下所示

后来,我尝试保存在文本格式,然后我得到的输出没有引号。

data = [{"Cnt": 'A|1'},{"Cnt": 'B|2'}]
rdd = sc.parallelize(data)
df_test = rdd.toDF()
df_test.repartition(1).write.option('header','false').option("delimiter",'|').option("quoteAll", 'false').option("quote", None).mode("overwrite").text("/demot/")

相关问题