我正在运行spark流,它正在使用来自kafka的消息。我还在spark代码中定义了检查点目录。
我们昨天在Kafka上传了大量的信息。当我使用-
bin/kafka-run-class.sh kafka.tools.ConsumerOffsetChecker --group xxx- \
streaming-consumer-group --zookeeper xxx.xxx.xxx.xxx:2181
它显示没有消息延迟。不过,我的spark作业在过去的10个小时里仍然在运行。
我的理解是spark流代码应该按顺序读取消息,并相应地更新kafka中的偏移量。
我不明白为什么即使Kafka没有消息延迟,spark仍然在运行。有人能解释一下吗?
暂无答案!
目前还没有任何答案,快来回答吧!