aim 在轨迹运行过程中出现错误且在程序退出之前如何删除运行?

wwwo4jvm  于 2个月前  发布在  其他
关注(0)|答案(6)|浏览(100)

❓问题

我这样写代码,但是当出现错误时,我无法使用delete_run。

run = Run(
    repo=os.path.join(aim_repo),
    experiment="mem_predict"
)

try:
 ...
except:
    run_hash = run.hash
    run.close()
    del run
    repo = Repo.from_path(aim_repo)
    repo.delete_run(run_hash)
dldeef67

dldeef671#

嘿,@BangBOOM!尝试删除运行时是否有任何错误/警告?因为它在我这边运行正常。我还想问一下 aim_repo 变量代表什么?因为你曾经用过一次 os.path.join(aim_repo),然后直接使用了它。

2w3rbyxf

2w3rbyxf2#

感谢您的回复,aim_repo是保存实验文件的路径,其值为~/aim_repo。错误信息为:

Error while trying to delete run 'd1094018bb39472bb61db938'. The file lock '/home/xxx/aim_repo/.aim/meta/locks/d1094018bb39472bb61db938' could not be acquired..

是的,我已经使用了os.path.join(aim_repo)

s4chpxco

s4chpxco3#

这很奇怪,run.close()本应该释放所有运行所需的锁。
请提供一些系统/环境信息(目标版本、Python版本、pip版本、操作系统)?
是否有任何并行进程尝试以写模式打开相同的运行?

dgtucam1

dgtucam14#

当然,我的系统信息:

Python 3.9.12
Aim v3.11.2
pip 22.1.2
os info:
-> % cat /etc/os-release
NAME="CentOS Linux"
VERSION="7 (Core)"
ID="centos"
ID_LIKE="rhel fedora"
VERSION_ID="7"
PRETTY_NAME="CentOS Linux 7 (Core)"

除此之外,我使用dvc以命令dvc exp run启动程序。

dwbf0jvd

dwbf0jvd5#

我也遇到了这个问题,我无法使用aim runs rm或通过网页上的delete按钮删除任何运行。我该如何使用软文件锁定来避免潜在的数据损坏?

cvxl0en2

cvxl0en26#

你好,@sijeh。你能提供一些关于你正在使用的设置的更多信息吗?

相关问题