spark通配符用于许多文件的目录在启动时非常慢

zpqajqem  于 2021-06-01  发布在  Hadoop
关注(0)|答案(0)|浏览(234)

我正面临https://issues.apache.org/jira/plugins/servlet/mobile#issue/spark-8437但当使用地球仪时。当读取一个包含大约50k个文件的目录时,文件大小可达1.5mb,如:
spark在实际开始处理任何工作之前会挂起大约7分钟。

spark.sparkContext.binaryFiles("/path/to/folder/*", parallelism)

我能做些什么来加快速度吗?事实上,https://issues.apache.org/jira/browse/spark-8437 描述相同的问题,但没有通配符。第一个链接提到这可能不是一个问题,而是与hadoopapi有关。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题