如何使用spark流进行实时日志分析((附建筑图片)

3npbholx  于 2021-05-17  发布在  Spark
关注(0)|答案(1)|浏览(558)

spark流媒体应用程序实时接收来自许多物联网设备的数据。但它们都是少量的数据。整个流程看起来像it->iot->kafka(1个主题/所有数据)->spark streaming(过滤错误日志)->db(保存)->警报屏幕
使用spark或python进行实时日志分析有什么好方法吗?

plicqrtu

plicqrtu1#

显然,您可以使用spark-kafka连接器从kafka队列流式传输数据。
本文档对kafka的结构化流媒体有一定的参考价值-https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html
从kafka获得流式Dataframe后,可以应用spark的filter()函数来过滤传入的数据集。
此外,这篇来自databricks的文档对于如何使用spark流实现日志分析应用程序也有很好的参考价值。
https://databricks.gitbooks.io/databricks-spark-reference-applications/content/logs_analyzer/app/index.html
以上可供参考!

相关问题