spark配置从hdfs原始目录读取100gb文件

7jmck4yq  于 2023-03-11  发布在  HDFS
关注(0)|答案(1)|浏览(327)

我正在尝试从Hadoop原始表读取100 GB文件,并执行转换,然后在集群模式下使用Spark将其写回HDFS,参数如下:

driver_memory=16g
executor_memory=8g
executor_cores=4
num_executors=64

同时,它读取具有许多输入拆分的数据,大约800个输入拆分,需要2个小时来读取和处理数据。80%的时间是从HDFS原始表读取数据。
我们是否可以减少此时间并提高性能?或者是否有任何参数可以将输入拆分读取大小从默认的128 MB更新为任何其他大小?

pkmbmrz7

pkmbmrz71#

要在Spark中处理大文件时提高性能,可以尝试增加HDFS原始表的块大小、增加分区数量、增加读缓冲区大小、增加读并行度、增加JVM内存、使用更高效的文件格式以及使用缓存。
要在从HDFS原始表阅读数据时减少输入拆分并提高性能,可以通过将spark.sql.files.maxPartitionBytes配置属性设置为所需大小来增加输入拆分大小。

相关问题