我正面临https://issues.apache.org/jira/plugins/servlet/mobile#issue/spark-8437但当使用地球仪时。当读取一个包含大约50k个文件的目录时,文件大小可达1.5mb,如:
spark在实际开始处理任何工作之前会挂起大约7分钟。
spark.sparkContext.binaryFiles("/path/to/folder/*", parallelism)
我能做些什么来加快速度吗?事实上,https://issues.apache.org/jira/browse/spark-8437 描述相同的问题,但没有通配符。第一个链接提到这可能不是一个问题,而是与hadoopapi有关。
暂无答案!
目前还没有任何答案,快来回答吧!