我是新的Spark流编程。如何显示并存储结果,然后新结果取决于新数据流和旧结果。spark版本=1.6.0Kafka版本2.10和java请帮忙。
cnh2zyt31#
可以使用persist()方法将中间结果保存在内存或磁盘上,具体取决于数据量。这可以在下一个数据流处理中访问。检查点用于在流式作业重新启动时从故障点重新启动作业。spark默认检查点跟踪上次成功读取的kafka消息并保存偏移量。但在spark 2.2版本之前,它确实存在一个错误,即在重新启动时将重新处理上次成功的数据流批处理。请参阅spark文档在下面。https://spark.apache.org/docs/1.6.0/streaming-programming-guide.html#caching--坚持
1条答案
按热度按时间cnh2zyt31#
可以使用persist()方法将中间结果保存在内存或磁盘上,具体取决于数据量。这可以在下一个数据流处理中访问。检查点用于在流式作业重新启动时从故障点重新启动作业。spark默认检查点跟踪上次成功读取的kafka消息并保存偏移量。但在spark 2.2版本之前,它确实存在一个错误,即在重新启动时将重新处理上次成功的数据流批处理。请参阅spark文档在下面。https://spark.apache.org/docs/1.6.0/streaming-programming-guide.html#caching--坚持