❓tensorboard在一定数量的epoch后停止记录指标
我正在使用tensorboard logger来跟踪我的指标。在UI运行中显示为进行中,但在1-2个epoch之后,指标没有更新。我正在使用远程服务器存储我的日志。
train_process = subprocess.Popen(['python3', '/root/workspace/mmdetection/tools/train.py', config_file, "--work-dir", work_dir])
time.sleep(60)
run = AimRun(repo="aim://192.168.9.14:53800", sync_tensorboard_log_dir=work_dir, system_tracking_interval=10, force_resume=True, experiment='my-mmdetection-trial')
train_process.wait()
有人遇到过类似的问题吗?我该如何解决这个问题?
2条答案
按热度按时间x4shl7ld1#
你好,@aswanthkrishna,终端中是否有任何痕迹?也许有一些异常或其他情况?我们如何重现这个问题?
uelo1irk2#
@SGevorg 我在日志中找不到任何特别的东西
我正在运行这个 mmdetection tutorial
这个创建了以下格式的TensorBoard日志
我正在使用基于教程的AIM TensorBoard跟踪器,使用以下代码