我尝试使用gpss
(Greenplum Stream Server)将数据从Kafka加载到GreenplumDB。
主要问题是gpss
示例如何\当提交当前写入偏移到Kafka?
现在gpss
示例没有向Kafka提交任何消息,但在GreenplumDB中处理服务表中的当前偏移量。我的预期行为是:
1.使用给定的group.id和主题(在Kafka中是强制性的,在gpss设置中不是强制性的-看起来很奇怪)
1.从Kafka主题开始使用数据
1.按分区跟踪较高偏移
1.当发生提交条件时等待(提交是gpss作业配置中的设置块)
1.使用gpfdist
将批量数据从Kafka写入外部表
1.按分区向Kafka提交最大偏移量
1.重复
但现在它的工作没有步骤n.5有人知道为什么吗?
第二个问题是-gpss是否使用group.id?在gpss作业配置中,我发现PROPERTIES
块配置对应于Kafka消费者配置属性
2条答案
按热度按时间hc2pp10m1#
从1.6.0版开始,如果在yaml文件中设置了“group.id”,gpss会将消耗的偏移量提交给Kafka。它以前只将偏移量提交给Greenplum的跟踪表。
6fe3ivhb2#
默认情况下,GPSS将提交的偏移量写入模式中的表。您也可以在.cfg文件中选择“consistency mode = strong”将提交的偏移量写入Kafka。
https://docs.vmware.com/en/VMware-Greenplum-Streaming-Server/1.10/greenplum-streaming-server/kafka-about-offset-mgmt.html
就像这样:
提交:最小间隔:5000最大行:500000一致性:strong属性:group.id:gpss