我有一个spark流应用程序(2.4.4),平均运行时间不到1分钟。我周期性地在这个处理中出现尖峰,它发生在hdfs(2.7.3)写操作中。
一个流处理过程平均需要1分钟,通常甚至更少。加班加点在这方面有尖峰,这不是由于更高的数据量。
峰值是在作业写入hdfs时引起的。通常需要几秒钟的时间。周期性地,它需要更长的时间,比如9分钟以下。
某些小任务(仅处理100kb的数据)需要相当长的时间(请参阅下面的屏幕截图)。
最快0.1s:
一个流处理过程平均需要1分钟,通常甚至更少。加班加点在这方面有尖峰,这不是由于更高的数据量。
峰值是在作业写入hdfs时引起的。通常需要几秒钟的时间。周期性地,它需要更长的时间,如下面的任务,总共需要9分钟:
某些小任务(仅处理100kb的数据)需要相当长的时间(请参阅下面的屏幕截图)。
最快0.1s:
最慢的15秒:
这会导致执行时间出现峰值:
我的假设是hdfs集群不能处理请求,这会导致执行速度变慢?或者是与Spark有关的问题?
暂无答案!
目前还没有任何答案,快来回答吧!