java—存储数据流、检查点、持久化?

nwsw7zdq  于 2021-06-06  发布在  Kafka
关注(0)|答案(1)|浏览(266)

我是新的Spark流编程。如何显示并存储结果,然后新结果取决于新数据流和旧结果。spark版本=1.6.0Kafka版本2.10和java
请帮忙。

cnh2zyt3

cnh2zyt31#

可以使用persist()方法将中间结果保存在内存或磁盘上,具体取决于数据量。这可以在下一个数据流处理中访问。检查点用于在流式作业重新启动时从故障点重新启动作业。spark默认检查点跟踪上次成功读取的kafka消息并保存偏移量。但在spark 2.2版本之前,它确实存在一个错误,即在重新启动时将重新处理上次成功的数据流批处理。请参阅spark文档在下面。https://spark.apache.org/docs/1.6.0/streaming-programming-guide.html#caching--坚持

相关问题