我在pyspark的读书桌上
df = spark.readStream.format("delta").load("mySourceTable")
我用
df.writeStream.format("delta").outputMode("append").option("checkpointLocation", "/_checkpoints/myOutputTable").start("myOutputTable")
我的问题是如何删除所有检查点,以便pyspark从头读取mySourceTable
,而不是从上次读取的位置读取?
谢谢你。
我不知道如何删除"/_checkpoints/myOutputTable").start("myOutputTable")
中的检查点
1条答案
按热度按时间42fyovps1#
我不知道如何删除“/_checkpoints/myOutputTable”中的检查点)。start(myOutputTable”)
停止Spark应用程序后,您可以直接转到文件系统上的
checkpointLocation
目录(或存储表的位置,例如S3)并移动/删除它。当您重新启动Spark应用程序时,它将从头开始处理
mySourceTable
。