创建Dataframe后,我可以将其保存为avro、csv或parquet格式。在dataframe或rdd中是否有其他格式可用于在hadoop hdfs中保存数据?
svgewumm1#
rdd保存*pyspark.rdd.saveashadoopdataset数据集pyspark.rdd.saveashadoopfile文件pyspark.rdd.saveasnewapiHadoop数据集pyspark.rdd.saveasnewapiHadoop文件pyspark.rdd.saveaspicklefile文件pyspark.rdd.saveassequencefile pyspark.rdd.saveastextfile文件Dataframe保存pyspark.sql.dataframe.savepyspark.sql.dataframewriter.savepyspark.sql.dataframe.saveAspQuetFile文件pyspark.sql.dataframe.saveastablepyspark.sql.dataframewriter.saveastable最后但并非最不重要。。。spark dataframe docs可以更好地理解如何使用dataframe writer。
dgenwo3n2#
什么是apache hadoop?:hadoop分布式文件系统(hdfs)™): 提供对应用程序数据的高吞吐量访问的分布式文件系统。这样,您就可以使用hdfs存储任何格式的文件,包括avro、csv、parquet等。在spark中,使用format方法指定Dataframe的格式,而使用save方法指定存储中的位置。format(source:string):dataframewriter[t]指定基础输出数据源。内置选项包括“parquet”、“json”等。save(path:string):unit将Dataframe的内容保存到指定的路径。您还可以使用快捷方式,使用特定于格式的方法定义存储上Dataframe的格式和路径,如 json(path: String) , parquet(path: String) 或者类似的。
json(path: String)
parquet(path: String)
2条答案
按热度按时间svgewumm1#
rdd保存*
pyspark.rdd.saveashadoopdataset数据集
pyspark.rdd.saveashadoopfile文件
pyspark.rdd.saveasnewapiHadoop数据集
pyspark.rdd.saveasnewapiHadoop文件
pyspark.rdd.saveaspicklefile文件
pyspark.rdd.saveassequencefile pyspark.rdd.saveastextfile文件
Dataframe保存
pyspark.sql.dataframe.save
pyspark.sql.dataframewriter.save
pyspark.sql.dataframe.saveAspQuetFile文件
pyspark.sql.dataframe.saveastable
pyspark.sql.dataframewriter.saveastable
最后但并非最不重要。。。
spark dataframe docs可以更好地理解如何使用dataframe writer。
dgenwo3n2#
什么是apache hadoop?:
hadoop分布式文件系统(hdfs)™): 提供对应用程序数据的高吞吐量访问的分布式文件系统。
这样,您就可以使用hdfs存储任何格式的文件,包括avro、csv、parquet等。
在spark中,使用format方法指定Dataframe的格式,而使用save方法指定存储中的位置。
format(source:string):dataframewriter[t]指定基础输出数据源。内置选项包括“parquet”、“json”等。
save(path:string):unit将Dataframe的内容保存到指定的路径。
您还可以使用快捷方式,使用特定于格式的方法定义存储上Dataframe的格式和路径,如
json(path: String)
,parquet(path: String)
或者类似的。