当流媒体源是Kafka时，spark流媒体作业中startingOffsets early和startingOffsets latest有什么区别？

nwo49xxi 于 2023-02-15 发布在 Apache

关注(0)|答案(1)|浏览(173)

我正在尝试使用spark streaming job从Kafka中读取流。有一个属性startingoffsets，它的值可以是最早的也可以是最新的。当startingoffsets被设置为最新时，我对它感到困惑。
我的假设是当startingoffsets设置为最早时，它从开始读取数据，当设置为最晚时，它在spark流作业或查询执行时间的开始时间之后从Kafka读取数据。然而，当它设置为最早时，它按预期工作，但当我设置为最晚并运行流应用程序时，它不从kafka读取任何数据。

apache-kafka

来源：https://stackoverflow.com/questions/75446596/what-is-difference-between-startingoffsets-earliest-and-startingoffsets-latest-i

1条答案

按热度按时间

km0tfn4u1#

根据文件，属性会指定当伺服器上没有使用者位移时要执行的动作。
如果Kafka中没有初始偏移量，或者当前偏移量在服务器上不再存在（例如，因为数据已被删除），该怎么办：
earliest会从一开始就读取主题中的数据，你说它按预期工作，而latest没有，使用latest，你必须在开始读取后推送数据。

赞(0）回复(0）举报 2023-02-15

我来回答

当流媒体源是Kafka时，spark流媒体作业中startingOffsets early和startingOffsets latest有什么区别？

1条答案

相关问题

热门标签

最新问答