spark避免每次执行整个查询

zpqajqem  于 2021-05-24  发布在  Spark
关注(0)|答案(1)|浏览(457)

我有一个查询,它对mysql数据库中的数据进行移动平均。然后我需要每天执行该查询以使用前一天的值。
每次使用检查点存储到目前为止计算的最新日期,而不是查询数据库。然后我恢复检查点以获取Dataframe,但是我得到了在包括存储在Dataframe中的最新日期之前使用的所有数据。
我只需要一个方法,不必在整个mysql数据库上重新执行我的查询,而是使用最新日期的输入,或者是可行的,建议在spark中使用。

  1. df.checkpoint
  2. RecoverCheckpoint.recover

我不知道这是否是一个好方法,因为检查点是用于容错的。有没有别的方法可以达到这个目的?
裁判:
spark checkpointing非流式检查点文件可用于后续作业运行或驱动程序

i2loujxw

i2loujxw1#

你可能喜欢这个https://dzone.com/articles/what-are-spark-checkpoints-on-dataframes 您将发现,对于迭代算法,这也是一个必要的方面。有些奇怪的事情要处理。
老实说,当你提到我最初的问题时,我会重新提问,我会做一些简单的事情。回答得好,但我没办法实现。你看到你自己的问题了。

相关问题