aim 运行卡在进行中

ryoqjall  于 3个月前  发布在  其他
关注(0)|答案(9)|浏览(112)

当运行 aim up.. 并检查UI中的运行时,看起来有4/5个运行(除了最后一个训练过的,被标记为“已完成”),这些已经完成训练的运行卡在了“进行中”(绿色点):

几天前,当我最后一次检查训练状态时,这些运行已经被标记为已完成,但不知何故它们现在又被重新激活了...
由于这个原因,当访问这些运行以检查指标和数据时,会出现一个带有以下消息的弹出窗口:“错误。找不到运行”。
请注意,在运行 aim up 命令的终端中没有打印出任何错误。
我非常感谢任何帮助,
谢谢!

yk9xbfzb

yk9xbfzb1#

嘿,@Laiaborrell!非常感谢你的报告,这似乎有点奇怪,因为没有场景可以自动重新激活。我唯一的猜测是,这些场景试图被删除,但在删除过程中出现了问题,这就是为什么它显示找不到场景的原因。由于aim将运行数据存储在两个数据库(sqlite和rocksdb)中。我认为rocksdb部分的数据已被删除,而sqlite中的数据仍然存在。
你可以通过检查./aim/meta/chunks/{run_hash}目录是否仍然存在来确认是否是这种情况。

rxztt3cl

rxztt3cl2#

嘿,@mihran113,感谢你的回复!我检查了一下,运行的哈希值仍然在chunks文件夹中:

我也没有尝试删除任何文件:/
这对我来说很奇怪,因为它们看起来是活动的,而且运行时间一直在增加(现在已经8天了),但是训练过程所在的GPU已经停止了...此外,块文件夹中的文件也是在三天前更新的,当时它们的训练已经完成。

bmp9r5qi

bmp9r5qi3#

你好,@Laiaborrell,你解决了这个问题吗?因为我在使用langchain回调时遇到了相同的问题。

pxiryf3j

pxiryf3j4#

你好@Maximiliano-Villanueva,我没能解决这个问题。我不得不重新启动超参数搜索...对此感到抱歉。希望其他人能帮忙,这对未来类似问题会有所帮助。

i2loujxw

i2loujxw5#

关于这个问题,你知道有什么更新吗?我也在meta/chunks中看到了运行,而且我无法删除这些运行,因为它们会在线出现在UI上。看起来重启服务器可以解决这个问题,希望这对你修复问题有帮助!是否有可能添加一个“强制删除”按钮来强制删除正在运行的运行?

ETA:当重启服务器时,一些运行将不会被删除,因为它们是“锁定”状态。

eyh26e7m

eyh26e7m6#

请允许我向您请教一下,当出现错误时(尝试打开运行时抛出 not found 命令),您能否分享一下 aim up 命令的日志?此外,如果您能分享一些发生这种情况的场景或示例脚本,以便我能在我的环境中重现它,那将非常有帮助。

bxpogfeg

bxpogfeg7#

我已经通过手动删除锁和从UI中删除的方式,删除了有问题的运行。一旦再次发生这种情况,我会立即分享日志。

xe55xuns

xe55xuns8#

请告诉我何时再次发生这种情况,因为很难重现,但错误应该能告诉我们很多正在发生的事情,这会有很大帮助。

gz5pxeao

gz5pxeao9#

关于强制删除,我们将在下一个次要版本中考虑实现它:3.20.0

相关问题