在Azure中,我启用了我的Databricks工作区的所有Diagnostic Logs。我看了所有的表,特别是DatabricksClusters和Usage,但是,我没有找到任何条目,可以帮助我在达到最大工作者数量时创建警报。我想监视数据块,以了解何时必须增加上限。
Diagnostic Logs
DatabricksClusters
Usage
voase2hg1#
有几种方法可以做到这一点:1.将诊断日志与日志分析一起使用。诊断日志包括群集事件,我们可以从中使用resize和resizeResult字段。resize主要由DLT管道使用,对于所有其他集群,我们需要使用resizeResult事件,其中包括clusterWorkers字段,其中包含调整大小后分配的工作线程数。这种方法的主要问题是,该事件不包括有关max_workers字段的信息,因此您需要以某种方式连接create和edit事件以获得max worker,但如果很久以前对集群配置进行了更改,并且日志分析中没有保留任何信息,则这可能会出现问题。1.最近,Databricks启动了so-called system tables的公共预览,其中包含与诊断日志中相同的信息(更多表即将推出),但它存储的时间更长,因此更容易将resizeResult等事件与集群信息结合起来。然后,您可以使用Databricks SQL Alerts发送通知。您可以在recent blog post中找到有关通知的系统使用的更多信息,其中还包含可重用的查询等。1.设置项目Overwatch,整合诊断日志+集群日志+一些其他信息,以更好地了解工作区和单个集群中发生的情况。但《守望先锋》正在慢慢被系统表取代。
resize
resizeResult
clusterWorkers
max_workers
create
edit
1条答案
按热度按时间voase2hg1#
有几种方法可以做到这一点:
1.将诊断日志与日志分析一起使用。诊断日志包括群集事件,我们可以从中使用
resize
和resizeResult
字段。resize
主要由DLT管道使用,对于所有其他集群,我们需要使用resizeResult
事件,其中包括clusterWorkers
字段,其中包含调整大小后分配的工作线程数。这种方法的主要问题是,该事件不包括有关max_workers
字段的信息,因此您需要以某种方式连接create
和edit
事件以获得max worker,但如果很久以前对集群配置进行了更改,并且日志分析中没有保留任何信息,则这可能会出现问题。1.最近,Databricks启动了so-called system tables的公共预览,其中包含与诊断日志中相同的信息(更多表即将推出),但它存储的时间更长,因此更容易将
resizeResult
等事件与集群信息结合起来。然后,您可以使用Databricks SQL Alerts发送通知。您可以在recent blog post中找到有关通知的系统使用的更多信息,其中还包含可重用的查询等。1.设置项目Overwatch,整合诊断日志+集群日志+一些其他信息,以更好地了解工作区和单个集群中发生的情况。但《守望先锋》正在慢慢被系统表取代。