apachespark使用s3a从s3对象存储分区下载csv

rwqw0loc  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(391)

我想下载一个文件,已保存到s3使用分区上传。我试图补充 * 在我的地址的结尾,但看起来这种格式是无效的。我的代码如下:

  1. df= spark.read.csv('s3a://bucket-name/file.csv/*')
  2. , header='true'
  3. , inferSchema ='true'
  4. )

这些文件存储在以下位置:

  1. file.csv/part1.csv
  2. file.csv/part2.csv

我想知道是否 * 是否支持。如果没有,还有什么选择呢?

vh0rcniy

vh0rcniy1#

您可以尝试放弃下面的目录位置,而不是指定“*”字符,

  1. val df=spark.read
  2. .format("org.apache.spark.csv")
  3. .option("header", true)
  4. .option("inferSchema", true)
  5. .csv("s3a://bucket-name/file.csv/")

相关问题