spark metrics-csv sink在初始更新后不更新，除非在每次更新后清除池目录

xzv2uavs 于 2021-07-13 发布在 Spark

关注(0)|答案(0)|浏览(252)

我正在databricks集群上用csv接收器实现spark度量。
下面是我基于metrics.properties.template链接使用的metrics.properties配置


* .sink.csv.class=org.apache.spark.metrics.sink.CsvSink

* .sink.csv.period=1
* .sink.csv.unit=minutes

* .sink.csv.directory=/dbfs/metrics_sink_csv_test/

worker.sink.csv.period=1
worker.sink.csv.unit=minutes

这适用于初始池，但是除非清除池目录，否则不会添加或更新任何文件。
（正在添加到池目录的度量文件的快照）
我的假设是，每次合并度量时，它们都以相同的文件名添加，如果文件已经存在，则会出现文件名冲突，并且不会添加新的度量。
目前，我运行了另一个spark作业，它连续清理池目录。
有什么办法可以避免这种情况吗？
如果文件名发生冲突，是否可以将度量附加到现有文件或创建新文件？

apache-spark pyspark databricks azure-databricks

来源：https://stackoverflow.com/questions/66315042/spark-metrics-csv-sink-not-updating-after-initial-update-unless-pooling-direc

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

spark metrics-csv sink在初始更新后不更新，除非在每次更新后清除池目录

暂无答案！

相关问题

热门标签

最新问答