我是spark streaming的新手,我对它的用法有一个一般性的问题。我目前正在实现一个应用程序,它从Kafka主题流式传输数据。
使用应用程序只运行一次批处理是一种常见的场景吗?例如,一天结束时,从主题收集所有数据,进行一些聚合和转换等等?
这意味着在用spark submit启动应用程序后,所有这些内容都将在一批中执行,然后应用程序将被关闭。或者sparkstream是为在连续的批处理中运行无止境的、永久性的流数据而构建的吗?
我是spark streaming的新手,我对它的用法有一个一般性的问题。我目前正在实现一个应用程序,它从Kafka主题流式传输数据。
使用应用程序只运行一次批处理是一种常见的场景吗?例如,一天结束时,从主题收集所有数据,进行一些聚合和转换等等?
这意味着在用spark submit启动应用程序后,所有这些内容都将在一批中执行,然后应用程序将被关闭。或者sparkstream是为在连续的批处理中运行无止境的、永久性的流数据而构建的吗?
1条答案
按热度按时间2fjabf4q1#
您可以使用kafka流api,并固定一个窗口时间来对主题中的事件执行聚合和转换,一次只能执行一个批处理。有关窗口的移动信息,请选中此项https://kafka.apache.org/21/documentation/streams/developer-guide/dsl-api.html#windowing