spark到hdfs的处理各不相同

wydwbb8l 于 2021-07-14 发布在 Spark

关注(0)|答案(0)|浏览(164)

我有一个spark流应用程序（2.4.4），平均运行时间不到1分钟。我周期性地在这个处理中出现尖峰，它发生在hdfs（2.7.3）写操作中。
一个流处理过程平均需要1分钟，通常甚至更少。加班加点在这方面有尖峰，这不是由于更高的数据量。
峰值是在作业写入hdfs时引起的。通常需要几秒钟的时间。周期性地，它需要更长的时间，比如9分钟以下。
某些小任务（仅处理100kb的数据）需要相当长的时间（请参阅下面的屏幕截图）。
最快0.1s：
一个流处理过程平均需要1分钟，通常甚至更少。加班加点在这方面有尖峰，这不是由于更高的数据量。
峰值是在作业写入hdfs时引起的。通常需要几秒钟的时间。周期性地，它需要更长的时间，如下面的任务，总共需要9分钟：

某些小任务（仅处理100kb的数据）需要相当长的时间（请参阅下面的屏幕截图）。
最快0.1s：

最慢的15秒：

这会导致执行时间出现峰值：

我的假设是hdfs集群不能处理请求，这会导致执行速度变慢？或者是与Spark有关的问题？