kafka sparkstreaming配置指定偏移量/消息列表大小

hrirmatl 于 2021-06-08 发布在 Kafka

关注(0)|答案(1)|浏览(300)

我对kafka和spark都很陌生，正在尝试写一个作业（流式或批式）。我想从kafka那里读一个预定义的消息数（比如x），通过workers处理收集，然后只开始处理下一组x消息。基本上，kafka中的每条消息都是10kb，我想在一个s3文件中放入2gb的消息。那么，有没有办法指定接收者获取的消息数量呢？我已经读到在创建dstream时可以指定'from offset'，但是这个用例有些不同。我需要能够同时指定“从偏移量”和“到偏移量”。

apache-kafka apache-spark Configuration

来源：https://stackoverflow.com/questions/33906170/kafka-sparkstreaming-configuration-specify-offsets-message-list-size

1条答案

按热度按时间

kt06eoxx1#

无法将结束偏移量设置为初始参数（就像可以设置开始偏移量一样），但可以使用 createDirectStream （清单中的第四个重载版本），它使您能够使用 HasOffsetRanges （这给了你回报 OffsetRange ).
这意味着您必须比较从 OffsetRange 在每一个小批量中都有你的结束偏移量，以便知道你在哪里，什么时候停止Kafka的消费。
我想您还需要考虑一个事实，即每个分区都有其顺序偏移量。我想如果你能稍微超过2gb，完成当前的微批处理（可能是几kb，这取决于你的消息密度）所需的数据量，这将是最简单的，以避免将最后一批处理拆分为已消耗和未消耗的部分，这可能需要你摆弄spark保持的偏移量，以便跟踪消耗了什么和没有消耗什么。
希望这有帮助。

赞(0）回复(0）举报 2021-06-08

我来回答

kafka sparkstreaming配置指定偏移量/消息列表大小

1条答案

相关问题

热门标签

最新问答