如何优化从s3读取的spark？

pu3pd22g 于 2021-05-29 发布在 Spark

关注(0)|答案(0)|浏览(438)

from pyspark.sql.functions import col

text_df = spark.read.text("s3://bucket/**/*.txt", wholetext=True)
text_df = text_df.select(col("value").alias("content"))

当我解释阅读时，我得到：

（1） filescan text[value#6]批处理：false，格式：text，位置：inmemoryfileindex[s3://arxivmanifest/0001/astro-ph0001001.txt，s3://arxivmanifest/0001/astro-ph00…，分区筛选器：[]，pushedfilters:[]，readschema:structvalue:string

dag是这样的，只有一个阶段：

任务时间线是这样的。有1781个任务，每个文件一个。

因此，似乎没有洗牌时间，这表明处理文件的节点持有存储在Dataframe上的分区。
我不知道该怎么优化这个。有什么建议吗？为什么其中两项任务长得难以置信？为什么图表上没有1780个条形图呢？