aim 客户端意外异常

vu8f3i0k  于 2个月前  发布在  其他
关注(0)|答案(4)|浏览(16)

🐛 Bug

我们在客户端遇到了这个问题

ValueError: not enough values to unpack (expected at least 1, got 0)
    raise exception(*args) if args else exception()
  File "/usr/python3.11/lib/python3.11/site-packages/aim/ext/transport/message_utils.py", line 76, in raise_exception
    raise_exception(response.exception)
  File "/usr/python3.11/lib/python3.11/site-packages/aim/ext/transport/client.py", line 299, in _run_write_instructions
    task_f(*args)
  File "/usr/python3.11/lib/python3.11/site-packages/aim/ext/transport/rpc_queue.py", line 81, in _try_exec_task
       ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
    if self._try_exec_task(task_f, *args):
  File "/usr/python3.11/lib/python3.11/site-packages/aim/ext/transport/rpc_queue.py", line 55, in worker
    self._target(*self._args, **self._kwargs)
  File "/usr/python3.11/lib/python3.11/threading.py", line 975, in run
    self.run()
  File "/usr/python3.11/lib/python3.11/threading.py", line 1038, in _bootstrap_inner

重现方法

我认为很难重现,因为这是我们第一次在正常运行中看到这个错误

环境

  • Aim v3.16.2
  • Python 3.11
  • OS Linux
rnmwe5a2

rnmwe5a21#

嘿,@Alexponomarev7,非常感谢你的报告!
你能否分享一些额外的上下文以便进行调试?

  • 你运行了多少个并行客户端?
  • 每个进程中是否运行了多个线程进行训练?
  • 跟踪的元数据的维度:
  • 运行次数,
  • 每个客户端的运行次数,
  • 跟踪指标的频率

任何额外的信息都会非常有帮助🙏

368yc8dk

368yc8dk2#

你运行了多少个并行客户端:
大约10个
每个进程中是否使用多线程进行训练:
每个节点上进行训练(我们使用AIM服务器推送指标)
运行次数:
约1500次
每个客户端的运行次数:
1个客户端 - 进行1次运行
跟踪指标的频率:
每次运行500次

hyrbngr7

hyrbngr73#

@Alexponomarev7 感谢你如此详细地分享。我们会尝试重现这个问题并回复你。
同时,如果你认为还有其他可能有用的细节,请随时分享。

5lwkijsr

5lwkijsr4#

@Alexponomarev7 有关问题的任何细节将大大有助于解决问题。问题是在度量跟踪期间发生的,还是在其他情况下?在故障之前有任何警告吗?此外,如果您能提供一些示例脚本,也将非常有帮助。

相关问题