Apache Spark 如何使用数据块中结构化流的最大记录计数限制输入速率？

ubof19bj 于 2023-01-05 发布在 Apache

关注(0)|答案(1)|浏览(98)

我尝试使用最大记录计数限制结构化流查询的输入速率。但是，documentation显示仅支持maxFilesPerTrigger或maxBytesPerTrigger。
是否有任何变通办法来实现这一点与最大记录计数？
请告知

来源：https://stackoverflow.com/questions/74981385/how-do-i-limit-input-rate-using-max-record-count-on-structured-streaming-in-data

1条答案

按热度按时间

knsnq2tg1#

虽然没有明确提到，但我认为这是关于Delta Lake流的问题。不幸的是，Delta Lake不支持最大行数限制，因此您需要为maxBytesPerTrigger选择一个值，该值将大致匹配您想要处理的记录数。
部分原因（不是100%确定），这可能是由于Delta是基于文件的格式，与Kafka等面向消息的服务相比，更难控制记录数量。
P.S.看起来Delta实时表中有这样的选项
另外，为什么要限制每批记录的数量？

赞(0）回复(0）举报 2023-01-05

我来回答

Apache Spark 如何使用数据块中结构化流的最大记录计数限制输入速率？

1条答案

相关问题

热门标签

最新问答