我有一个连续的数据流,为此我开始研究spark结构化流。到目前为止,我已经意识到结构化流式API的一些性能含义,以及一些其他限制,例如没有多个聚合(虽然我可以存储中间结果,但这也不是非常高效的性能)。
现在,我转向不使用流式API来编写所有内容(我没有非常复杂的数据延迟到达、窗口或数据重复问题的要求),但不确定我们是否可以通过简单地使用一个spark上下文来设计应用程序,以便在一段时间内等待新数据。有没有人做过这样的事情?这样做可能会面临哪些不同的问题?
我有一个连续的数据流,为此我开始研究spark结构化流。到目前为止,我已经意识到结构化流式API的一些性能含义,以及一些其他限制,例如没有多个聚合(虽然我可以存储中间结果,但这也不是非常高效的性能)。
现在,我转向不使用流式API来编写所有内容(我没有非常复杂的数据延迟到达、窗口或数据重复问题的要求),但不确定我们是否可以通过简单地使用一个spark上下文来设计应用程序,以便在一段时间内等待新数据。有没有人做过这样的事情?这样做可能会面临哪些不同的问题?
暂无答案!
目前还没有任何答案,快来回答吧!