我正在写一个来自Kafka的spark流应用程序。为了得到一个完全相同的语义,我想使用直接kafka流和spark流本地检查点。
问题是,检查点使得维护代码实际上是不可能的:如果您更改了某些内容,就会丢失检查点数据,因此您几乎不得不读取两次来自Kafka的某些消息。我想避开它。
因此,我试图自己读取检查点目录中的数据,但到目前为止我还不能做到这一点。有人能告诉我如何通过checkpoint文件夹读取关于最后处理的kafka偏移的信息吗?
谢谢你,马可
我正在写一个来自Kafka的spark流应用程序。为了得到一个完全相同的语义,我想使用直接kafka流和spark流本地检查点。
问题是,检查点使得维护代码实际上是不可能的:如果您更改了某些内容,就会丢失检查点数据,因此您几乎不得不读取两次来自Kafka的某些消息。我想避开它。
因此,我试图自己读取检查点目录中的数据,但到目前为止我还不能做到这一点。有人能告诉我如何通过checkpoint文件夹读取关于最后处理的kafka偏移的信息吗?
谢谢你,马可
暂无答案!
目前还没有任何答案,快来回答吧!