spark通配符用于许多文件的目录在启动时非常慢

zpqajqem 于 2021-06-01 发布在 Hadoop

关注(0)|答案(0)|浏览(251)

我正面临https://issues.apache.org/jira/plugins/servlet/mobile#issue/spark-8437但当使用地球仪时。当读取一个包含大约50k个文件的目录时，文件大小可达1.5mb，如：
spark在实际开始处理任何工作之前会挂起大约7分钟。

spark.sparkContext.binaryFiles("/path/to/folder/*", parallelism)

我能做些什么来加快速度吗？事实上，https://issues.apache.org/jira/browse/spark-8437 描述相同的问题，但没有通配符。第一个链接提到这可能不是一个问题，而是与hadoopapi有关。

目前还没有任何答案，快来回答吧！

相关问题