将数据保存到hdfs的格式是什么？

xriantvc 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(637)

创建Dataframe后，我可以将其保存为avro、csv或parquet格式。
在dataframe或rdd中是否有其他格式可用于在hadoop hdfs中保存数据？

hadoop hdfs apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/47923759/what-are-the-formats-to-save-data-to-hdfs

2条答案

按热度按时间

svgewumm1#

rdd保存*
pyspark.rdd.saveashadoopdataset数据集
pyspark.rdd.saveashadoopfile文件
pyspark.rdd.saveasnewapiHadoop数据集
pyspark.rdd.saveasnewapiHadoop文件
pyspark.rdd.saveaspicklefile文件
pyspark.rdd.saveassequencefile pyspark.rdd.saveastextfile文件
Dataframe保存
pyspark.sql.dataframe.save
pyspark.sql.dataframewriter.save
pyspark.sql.dataframe.saveAspQuetFile文件
pyspark.sql.dataframe.saveastable
pyspark.sql.dataframewriter.saveastable
最后但并非最不重要。。。
spark dataframe docs可以更好地理解如何使用dataframe writer。

赞(0）回复(0）举报 2021-05-29

dgenwo3n2#

什么是apache hadoop？：
hadoop分布式文件系统（hdfs）™): 提供对应用程序数据的高吞吐量访问的分布式文件系统。
这样，您就可以使用hdfs存储任何格式的文件，包括avro、csv、parquet等。
在spark中，使用format方法指定Dataframe的格式，而使用save方法指定存储中的位置。
format（source:string）：dataframewriter[t]指定基础输出数据源。内置选项包括“parquet”、“json”等。
save（path:string）：unit将Dataframe的内容保存到指定的路径。
您还可以使用快捷方式，使用特定于格式的方法定义存储上Dataframe的格式和路径，如 json(path: String) , parquet(path: String) 或者类似的。

赞(0）回复(0）举报 2021-05-29

我来回答

将数据保存到hdfs的格式是什么？

2条答案

相关问题

热门标签

最新问答