aim 程序在创建运行时崩溃,

slhcrj9b  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(22)

🐛 Bug

在没有互联网的计算节点上启动的部分作业在创建Aim运行时失败。根据我的作业日志,它似乎在这个线上挂了大约8-9分钟。这是一个示例错误信息:https://gist.github.com/dapatil211/5c94906c6e77b63b16e7e4ae442b6e31

重现步骤

在没有互联网的节点上运行:
run = Run(repo=os.environ.get("AIM_REPO", None), experiment=project_name)

预期行为

作业不应该崩溃。

环境

  • Aim版本(例如,3.0.1):3.17.3
  • Python版本:3.10.2
  • pip版本:21.3.1
  • 操作系统(例如,Linux):Rocky Linux 8.7 (Green Obsidian)
  • 其他相关信息

附加上下文

dzhpxtsq

dzhpxtsq1#

抱歉给您带来不便,@dapatil211
@alberttorosyan 您认为这可能是分段/遥测吗?

hxzsmxv2

hxzsmxv22#

不用担心,我正在尝试关闭遥测并查看是否仍然存在问题。此外,我在工作日志中误读了时间间隔,它只挂起约一分钟。我还查看了日志,其中27/75个提交的任务存在此问题,22/75个因其他原因崩溃(这是我的错误),其余任务似乎运行正常。

相关问题