大家好,我正在处理一个用例,我正在通过Azure云中的事件中心实现对增量表的更新/增量更新。我遇到了必要的事件中心和增量实时表。我在开始时有一个HVR代理,它将从各种数据源获取连续数据。事件集线器将读取数据,并将数据放置到增量实时表,然后放置到将充当管道源的增量表。以下是要涵盖的场景。1.尽管可能存在服务器停机问题,但仅读取一次新登录的数据。1.如果出现任何失败,我们应该从成功状态的最后一个点读取数据1.从初始位置恢复过去的数据你能帮我解决一下我的问题吗?
ilmyapht1#
是的,Delta Live Tables(DLT)将满足该要求。对于流式实时表,DLT在幕后使用Spark Structured Streaming,以保证:
第三个要求不是很清楚-它是否要从主题开始就使用数据?那么是的,这是可能的。请注意,您不能直接使用EventHubs Spark连接器,因为DLT目前不允许安装外部jar,但您可以使用DLT运行时的内置Kafka连接器来安装外部jar。此答案说明了如何安装外部jar。
1条答案
按热度按时间ilmyapht1#
是的,Delta Live Tables(DLT)将满足该要求。对于流式实时表,DLT在幕后使用Spark Structured Streaming,以保证:
第三个要求不是很清楚-它是否要从主题开始就使用数据?那么是的,这是可能的。
请注意,您不能直接使用EventHubs Spark连接器,因为DLT目前不允许安装外部jar,但您可以使用DLT运行时的内置Kafka连接器来安装外部jar。此答案说明了如何安装外部jar。