on-sparkrunner：为什么流式作业的调度延迟在增加？

liwlm1x9 于 2021-06-06 发布在 Kafka

关注(0)|答案(0)|浏览(308)

我定义了一个管道，该管道读取Kafka主题，执行一些步骤，并将结果发布到输出Kafka主题。
当我在直接运行模式下测试时，一切都很好。
但是，当我将beam应用程序提交给spark时，我得到了一个加强行为：-调度延迟增加。

经过长时间的调查，我发现这个批次的持续时间太小（500毫秒）。
遵循此链接
spark runner的管道选项
我将此选项添加到spark submit：
--batchintervalmillis=2000年
现在一切恢复正常：

不要犹豫分享你的意见。你好，阿里