使用pyspark更改hdfs中存储的parquet文件的文件名

rggaifut 于 2021-07-13 发布在 Spark

关注(0)|答案(0)|浏览(378)

我使用pyspark创建了一个Parquet文件，如下所示：

df.repartition(1).write.parquet('hdfs://master:9000/movie_data_parquet/movie_genress')

此文件以以下名称存储在my hdfs中：

part-00000-0413dc05-4ffb-474e-98db-ac3c09f66f2c-c000.snappy.parquet

我想做的是更改此名称。在联机搜索后，我尝试使用hadoop api实现以下指令：

fs = spark._jvm.org.apache.hadoop.fs.FileSystem.get(spark._jsc.hadoopConfiguration())
Path = sc._gateway.jvm.org.apache.hadoop.fs.Path
fs.rename(Path("hdfs://master:9000/movie_data_parquet/movie_genress/part-00000-0413dc05-4ffb-474e-98db-ac3c09f66f2c-c000.snappy.parquet"),Path("hdfs://master:9000/movie_data_parquet/movie_data_parquet/movie_genress/a.snappy.parquet"))

代码运行时没有错误或警告，但在我的分布式文件系统中没有任何更改。您知道我做错了什么吗？
提前谢谢

hadoop hdfs apache-spark pyspark

来源：https://stackoverflow.com/questions/66266745/changing-filename-of-parquet-file-stored-in-hdfs-using-pyspark

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

使用pyspark更改hdfs中存储的parquet文件的文件名

暂无答案！

相关问题

热门标签

最新问答