Apache Spark 如何使用数据块中结构化流的最大记录计数限制输入速率?

ubof19bj  于 2023-01-05  发布在  Apache
关注(0)|答案(1)|浏览(98)

我尝试使用最大记录计数限制结构化流查询的输入速率。但是,documentation显示仅支持maxFilesPerTriggermaxBytesPerTrigger
是否有任何变通办法来实现这一点与最大记录计数?
请告知

knsnq2tg

knsnq2tg1#

虽然没有明确提到,但我认为这是关于Delta Lake流的问题。不幸的是,Delta Lake不支持最大行数限制,因此您需要为maxBytesPerTrigger选择一个值,该值将大致匹配您想要处理的记录数。
部分原因(不是100%确定),这可能是由于Delta是基于文件的格式,与Kafka等面向消息的服务相比,更难控制记录数量。
P.S.看起来Delta实时表中有这样的选项
另外,为什么要限制每批记录的数量?

相关问题