from pyspark.sql.functions import col
text_df = spark.read.text("s3://bucket/**/*.txt", wholetext=True)
text_df = text_df.select(col("value").alias("content"))
当我解释阅读时,我得到:
- (1) filescan text[value#6]批处理:false,格式:text,位置:inmemoryfileindex[s3://arxivmanifest/0001/astro-ph0001001.txt,s3://arxivmanifest/0001/astro-ph00…,分区筛选器:[],pushedfilters:[],readschema:structvalue:string
dag是这样的,只有一个阶段:
任务时间线是这样的。有1781个任务,每个文件一个。
因此,似乎没有洗牌时间,这表明处理文件的节点持有存储在Dataframe上的分区。
我不知道该怎么优化这个。有什么建议吗?为什么其中两项任务长得难以置信?为什么图表上没有1780个条形图呢?
暂无答案!
目前还没有任何答案,快来回答吧!