如何优化从s3读取的spark?

pu3pd22g  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(438)
from pyspark.sql.functions import col

text_df = spark.read.text("s3://bucket/**/*.txt", wholetext=True)
text_df = text_df.select(col("value").alias("content"))

当我解释阅读时,我得到:

  • (1) filescan text[value#6]批处理:false,格式:text,位置:inmemoryfileindex[s3://arxivmanifest/0001/astro-ph0001001.txt,s3://arxivmanifest/0001/astro-ph00…,分区筛选器:[],pushedfilters:[],readschema:structvalue:string

dag是这样的,只有一个阶段:

任务时间线是这样的。有1781个任务,每个文件一个。

因此,似乎没有洗牌时间,这表明处理文件的节点持有存储在Dataframe上的分区。
我不知道该怎么优化这个。有什么建议吗?为什么其中两项任务长得难以置信?为什么图表上没有1780个条形图呢?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题