我正在databricks集群上用csv接收器实现spark度量。
下面是我基于metrics.properties.template链接使用的metrics.properties配置
* .sink.csv.class=org.apache.spark.metrics.sink.CsvSink
* .sink.csv.period=1
* .sink.csv.unit=minutes
* .sink.csv.directory=/dbfs/metrics_sink_csv_test/
worker.sink.csv.period=1
worker.sink.csv.unit=minutes
这适用于初始池,但是除非清除池目录,否则不会添加或更新任何文件。
(正在添加到池目录的度量文件的快照)
我的假设是,每次合并度量时,它们都以相同的文件名添加,如果文件已经存在,则会出现文件名冲突,并且不会添加新的度量。
目前,我运行了另一个spark作业,它连续清理池目录。
有什么办法可以避免这种情况吗?
如果文件名发生冲突,是否可以将度量附加到现有文件或创建新文件?
暂无答案!
目前还没有任何答案,快来回答吧!