当运行 aim up.. 并检查UI中的运行时,看起来有4/5个运行(除了最后一个训练过的,被标记为“已完成”),这些已经完成训练的运行卡在了“进行中”(绿色点):
aim up..
几天前,当我最后一次检查训练状态时,这些运行已经被标记为已完成,但不知何故它们现在又被重新激活了...由于这个原因,当访问这些运行以检查指标和数据时,会出现一个带有以下消息的弹出窗口:“错误。找不到运行”。请注意,在运行 aim up 命令的终端中没有打印出任何错误。我非常感谢任何帮助,谢谢!
yk9xbfzb1#
嘿,@Laiaborrell!非常感谢你的报告,这似乎有点奇怪,因为没有场景可以自动重新激活。我唯一的猜测是,这些场景试图被删除,但在删除过程中出现了问题,这就是为什么它显示找不到场景的原因。由于aim将运行数据存储在两个数据库(sqlite和rocksdb)中。我认为rocksdb部分的数据已被删除,而sqlite中的数据仍然存在。你可以通过检查./aim/meta/chunks/{run_hash}目录是否仍然存在来确认是否是这种情况。
aim
./aim/meta/chunks/{run_hash}
rxztt3cl2#
嘿,@mihran113,感谢你的回复!我检查了一下,运行的哈希值仍然在chunks文件夹中:
chunks
我也没有尝试删除任何文件:/这对我来说很奇怪,因为它们看起来是活动的,而且运行时间一直在增加(现在已经8天了),但是训练过程所在的GPU已经停止了...此外,块文件夹中的文件也是在三天前更新的,当时它们的训练已经完成。
bmp9r5qi3#
你好,@Laiaborrell,你解决了这个问题吗?因为我在使用langchain回调时遇到了相同的问题。
pxiryf3j4#
你好@Maximiliano-Villanueva,我没能解决这个问题。我不得不重新启动超参数搜索...对此感到抱歉。希望其他人能帮忙,这对未来类似问题会有所帮助。
i2loujxw5#
关于这个问题,你知道有什么更新吗?我也在meta/chunks中看到了运行,而且我无法删除这些运行,因为它们会在线出现在UI上。看起来重启服务器可以解决这个问题,希望这对你修复问题有帮助!是否有可能添加一个“强制删除”按钮来强制删除正在运行的运行?
ETA:当重启服务器时,一些运行将不会被删除,因为它们是“锁定”状态。
eyh26e7m6#
请允许我向您请教一下,当出现错误时(尝试打开运行时抛出 not found 命令),您能否分享一下 aim up 命令的日志?此外,如果您能分享一些发生这种情况的场景或示例脚本,以便我能在我的环境中重现它,那将非常有帮助。
not found
aim up
bxpogfeg7#
我已经通过手动删除锁和从UI中删除的方式,删除了有问题的运行。一旦再次发生这种情况,我会立即分享日志。
xe55xuns8#
请告诉我何时再次发生这种情况,因为很难重现,但错误应该能告诉我们很多正在发生的事情,这会有很大帮助。
gz5pxeao9#
关于强制删除,我们将在下一个次要版本中考虑实现它:3.20.0
3.20.0
9条答案
按热度按时间yk9xbfzb1#
嘿,@Laiaborrell!非常感谢你的报告,这似乎有点奇怪,因为没有场景可以自动重新激活。我唯一的猜测是,这些场景试图被删除,但在删除过程中出现了问题,这就是为什么它显示找不到场景的原因。由于
aim
将运行数据存储在两个数据库(sqlite和rocksdb)中。我认为rocksdb部分的数据已被删除,而sqlite中的数据仍然存在。你可以通过检查
./aim/meta/chunks/{run_hash}
目录是否仍然存在来确认是否是这种情况。rxztt3cl2#
嘿,@mihran113,感谢你的回复!我检查了一下,运行的哈希值仍然在
chunks
文件夹中:我也没有尝试删除任何文件:/
这对我来说很奇怪,因为它们看起来是活动的,而且运行时间一直在增加(现在已经8天了),但是训练过程所在的GPU已经停止了...此外,块文件夹中的文件也是在三天前更新的,当时它们的训练已经完成。
bmp9r5qi3#
你好,@Laiaborrell,你解决了这个问题吗?因为我在使用langchain回调时遇到了相同的问题。
pxiryf3j4#
你好@Maximiliano-Villanueva,我没能解决这个问题。我不得不重新启动超参数搜索...对此感到抱歉。希望其他人能帮忙,这对未来类似问题会有所帮助。
i2loujxw5#
关于这个问题,你知道有什么更新吗?我也在meta/chunks中看到了运行,而且我无法删除这些运行,因为它们会在线出现在UI上。看起来重启服务器可以解决这个问题,希望这对你修复问题有帮助!是否有可能添加一个“强制删除”按钮来强制删除正在运行的运行?
ETA:当重启服务器时,一些运行将不会被删除,因为它们是“锁定”状态。
eyh26e7m6#
请允许我向您请教一下,当出现错误时(尝试打开运行时抛出
not found
命令),您能否分享一下aim up
命令的日志?此外,如果您能分享一些发生这种情况的场景或示例脚本,以便我能在我的环境中重现它,那将非常有帮助。bxpogfeg7#
我已经通过手动删除锁和从UI中删除的方式,删除了有问题的运行。一旦再次发生这种情况,我会立即分享日志。
xe55xuns8#
请告诉我何时再次发生这种情况,因为很难重现,但错误应该能告诉我们很多正在发生的事情,这会有很大帮助。
gz5pxeao9#
关于强制删除,我们将在下一个次要版本中考虑实现它:
3.20.0