如何在spark结构化流的一个微批次中设置批次大小

2ic8powd 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(570)

我正在从kafka源读取流数据，但是kafka的所有数据都是在单个微批中读取的。

spark.readStream.format("kafka").option("kafka.bootstrap.servers",bootstrap_servers).option("subscribe", topics).option("startingOffsets", "earliest").load()

哪一个参数或选项用于设置spark结构化流的一个微批次中的最大批次大小？

apache-kafka apache-spark pyspark spark-structured-streaming

来源：https://stackoverflow.com/questions/62120613/how-to-set-batch-size-in-one-micro-batch-of-spark-structured-streaming

1条答案

按热度按时间

5f0d552i1#

使用 maxOffsetsPerTrigger 限制消息的数量。
根据spark doc“maxoffsetspertrigger-每个触发间隔处理的最大偏移量的速率限制。指定的偏移总数将按比例拆分为不同卷的主题分区。”

赞(0）回复(0）举报 2021-05-27

我来回答

如何在spark结构化流的一个微批次中设置批次大小

1条答案

相关问题

热门标签

最新问答