aim 在轨迹运行过程中出现错误且在程序退出之前如何删除运行?

wwwo4jvm  于 10个月前  发布在  其他
关注(0)|答案(6)|浏览(222)

❓问题

我这样写代码,但是当出现错误时,我无法使用delete_run。

  1. run = Run(
  2. repo=os.path.join(aim_repo),
  3. experiment="mem_predict"
  4. )
  5. try:
  6. ...
  7. except:
  8. run_hash = run.hash
  9. run.close()
  10. del run
  11. repo = Repo.from_path(aim_repo)
  12. repo.delete_run(run_hash)
dldeef67

dldeef671#

嘿,@BangBOOM!尝试删除运行时是否有任何错误/警告?因为它在我这边运行正常。我还想问一下 aim_repo 变量代表什么?因为你曾经用过一次 os.path.join(aim_repo),然后直接使用了它。

2w3rbyxf

2w3rbyxf2#

感谢您的回复,aim_repo是保存实验文件的路径,其值为~/aim_repo。错误信息为:

  1. Error while trying to delete run 'd1094018bb39472bb61db938'. The file lock '/home/xxx/aim_repo/.aim/meta/locks/d1094018bb39472bb61db938' could not be acquired..

是的,我已经使用了os.path.join(aim_repo)

s4chpxco

s4chpxco3#

这很奇怪,run.close()本应该释放所有运行所需的锁。
请提供一些系统/环境信息(目标版本、Python版本、pip版本、操作系统)?
是否有任何并行进程尝试以写模式打开相同的运行?

dgtucam1

dgtucam14#

当然,我的系统信息:

  1. Python 3.9.12
  2. Aim v3.11.2
  3. pip 22.1.2
  4. os info:
  5. -> % cat /etc/os-release
  6. NAME="CentOS Linux"
  7. VERSION="7 (Core)"
  8. ID="centos"
  9. ID_LIKE="rhel fedora"
  10. VERSION_ID="7"
  11. PRETTY_NAME="CentOS Linux 7 (Core)"

除此之外,我使用dvc以命令dvc exp run启动程序。

dwbf0jvd

dwbf0jvd5#

我也遇到了这个问题,我无法使用aim runs rm或通过网页上的delete按钮删除任何运行。我该如何使用软文件锁定来避免潜在的数据损坏?

cvxl0en2

cvxl0en26#

你好,@sijeh。你能提供一些关于你正在使用的设置的更多信息吗?

相关问题