spark流媒体应用程序实时接收来自许多物联网设备的数据。但它们都是少量的数据。整个流程看起来像it->iot->kafka(1个主题/所有数据)->spark streaming(过滤错误日志)->db(保存)->警报屏幕使用spark或python进行实时日志分析有什么好方法吗?
plicqrtu1#
显然,您可以使用spark-kafka连接器从kafka队列流式传输数据。本文档对kafka的结构化流媒体有一定的参考价值-https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html从kafka获得流式Dataframe后,可以应用spark的filter()函数来过滤传入的数据集。此外,这篇来自databricks的文档对于如何使用spark流实现日志分析应用程序也有很好的参考价值。https://databricks.gitbooks.io/databricks-spark-reference-applications/content/logs_analyzer/app/index.html以上可供参考!
1条答案
按热度按时间plicqrtu1#
显然,您可以使用spark-kafka连接器从kafka队列流式传输数据。
本文档对kafka的结构化流媒体有一定的参考价值-https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html
从kafka获得流式Dataframe后,可以应用spark的filter()函数来过滤传入的数据集。
此外,这篇来自databricks的文档对于如何使用spark流实现日志分析应用程序也有很好的参考价值。
https://databricks.gitbooks.io/databricks-spark-reference-applications/content/logs_analyzer/app/index.html
以上可供参考!