将数据保存到hdfs的格式是什么?

xriantvc  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(619)

创建Dataframe后,我可以将其保存为avro、csv或parquet格式。
在dataframe或rdd中是否有其他格式可用于在hadoop hdfs中保存数据?

svgewumm

svgewumm1#

rdd保存*
pyspark.rdd.saveashadoopdataset数据集
pyspark.rdd.saveashadoopfile文件
pyspark.rdd.saveasnewapiHadoop数据集
pyspark.rdd.saveasnewapiHadoop文件
pyspark.rdd.saveaspicklefile文件
pyspark.rdd.saveassequencefile pyspark.rdd.saveastextfile文件
Dataframe保存
pyspark.sql.dataframe.save
pyspark.sql.dataframewriter.save
pyspark.sql.dataframe.saveAspQuetFile文件
pyspark.sql.dataframe.saveastable
pyspark.sql.dataframewriter.saveastable
最后但并非最不重要。。。
spark dataframe docs可以更好地理解如何使用dataframe writer。

dgenwo3n

dgenwo3n2#

什么是apache hadoop?:
hadoop分布式文件系统(hdfs)™): 提供对应用程序数据的高吞吐量访问的分布式文件系统。
这样,您就可以使用hdfs存储任何格式的文件,包括avro、csv、parquet等。
在spark中,使用format方法指定Dataframe的格式,而使用save方法指定存储中的位置。
format(source:string):dataframewriter[t]指定基础输出数据源。内置选项包括“parquet”、“json”等。
save(path:string):unit将Dataframe的内容保存到指定的路径。
您还可以使用快捷方式,使用特定于格式的方法定义存储上Dataframe的格式和路径,如 json(path: String) , parquet(path: String) 或者类似的。

相关问题