我有一个遗留系统,它将记录以更改的速度流式传输到队列(azure event hubs),每隔24小时,另一个进程读取所有记录并将它们全部转储到流中。这种机制允许任何消费者通过读取流的最后+24小时来重新创建数据。
我使用spark读取这个流并重新创建原始数据的视图(不幸的是,我不能直接读取它)。这些数据将被其他spark作业连接起来,用于批处理和流式处理。
在合适的存储后端方面,我有哪些选择?
delta表适合这种负载吗?我应该改用无sql后端(比如mongodb)吗?
我有一个遗留系统,它将记录以更改的速度流式传输到队列(azure event hubs),每隔24小时,另一个进程读取所有记录并将它们全部转储到流中。这种机制允许任何消费者通过读取流的最后+24小时来重新创建数据。
我使用spark读取这个流并重新创建原始数据的视图(不幸的是,我不能直接读取它)。这些数据将被其他spark作业连接起来,用于批处理和流式处理。
在合适的存储后端方面,我有哪些选择?
delta表适合这种负载吗?我应该改用无sql后端(比如mongodb)吗?
暂无答案!
目前还没有任何答案,快来回答吧!