Azure Event Hub可确保仅读取数据一次,并提供故障处理

khbbv19g  于 2022-11-25  发布在  其他
关注(0)|答案(1)|浏览(130)

大家好,我正在处理一个用例,我正在通过Azure云中的事件中心实现对增量表的更新/增量更新。我遇到了必要的事件中心和增量实时表。我在开始时有一个HVR代理,它将从各种数据源获取连续数据。事件集线器将读取数据,并将数据放置到增量实时表,然后放置到将充当管道源的增量表。
以下是要涵盖的场景。
1.尽管可能存在服务器停机问题,但仅读取一次新登录的数据。
1.如果出现任何失败,我们应该从成功状态的最后一个点读取数据
1.从初始位置恢复过去的数据
你能帮我解决一下我的问题吗?

ilmyapht

ilmyapht1#

是的,Delta Live Tables(DLT)将满足该要求。对于流式实时表,DLT在幕后使用Spark Structured Streaming,以保证:

  • 当一切正常时,数据将被读取一次。结构化流跟踪检查点中的已消耗偏移量(但这在DLT中自动发生)
  • 如果在数据处理期间出现故障,DLT将从上次成功处理期间存储在检查点中的偏移量开始处理数据。

第三个要求不是很清楚-它是否要从主题开始就使用数据?那么是的,这是可能的。
请注意,您不能直接使用EventHubs Spark连接器,因为DLT目前不允许安装外部jar,但您可以使用DLT运行时的内置Kafka连接器来安装外部jar。此答案说明了如何安装外部jar。

相关问题