因此,我使用的是spark中最通用的s3读取代码,它将指定目录中的多个文件读取到单个Dataframe中:
val df=spark.read.option("sep", "\t")
.option("inferSchema", "true")
.option("encoding","UTF-8")
.schema(sch)
.csv("s3://my-bucket/my-directory/")
获取从此路径读取的文件数的最佳方法(如果有的话)是什么?
因此,我使用的是spark中最通用的s3读取代码,它将指定目录中的多个文件读取到单个Dataframe中:
val df=spark.read.option("sep", "\t")
.option("inferSchema", "true")
.option("encoding","UTF-8")
.schema(sch)
.csv("s3://my-bucket/my-directory/")
获取从此路径读取的文件数的最佳方法(如果有的话)是什么?
1条答案
按热度按时间bq9c1y661#
你可以试着数一数
input_file_name()
:或者使用hadoop文件系统: