我正在从kafka源读取流数据,但是kafka的所有数据都是在单个微批中读取的。
spark.readStream.format("kafka").option("kafka.bootstrap.servers",bootstrap_servers).option("subscribe", topics).option("startingOffsets", "earliest").load()
哪一个参数或选项用于设置spark结构化流的一个微批次中的最大批次大小?
我正在从kafka源读取流数据,但是kafka的所有数据都是在单个微批中读取的。
spark.readStream.format("kafka").option("kafka.bootstrap.servers",bootstrap_servers).option("subscribe", topics).option("startingOffsets", "earliest").load()
哪一个参数或选项用于设置spark结构化流的一个微批次中的最大批次大小?
1条答案
按热度按时间5f0d552i1#
使用
maxOffsetsPerTrigger
限制消息的数量。根据spark doc“maxoffsetspertrigger-每个触发间隔处理的最大偏移量的速率限制。指定的偏移总数将按比例拆分为不同卷的主题分区。”