vllm [杂项]:请求帮助修复Tensor化器测试

mpbci0fu  于 2个月前  发布在  其他
关注(0)|答案(5)|浏览(91)

关于vllm的讨论

#3476中引入的tensorizer特性最近表现不稳定。

一个失败的例子:https://buildkite.com/vllm/fastcheck/builds/1061#0190ec55-50c1-4cf2-8380-bd7238e99cea

我们向社区求助,修复测试。理想情况下,也许那个PR的作者@sangstar可以帮忙。

我们首先会将其标记为不稳定和非阻塞测试。如果在几周内无法修复,那么我们需要考虑移除这个测试。

5gfr0r5j

5gfr0r5j1#

你好,@youkaichao,感谢你让我意识到这个问题。

有没有其他测试失败,导致test_vllm_tensorized_model_has_same_outputs出现内存不足错误?如果没有,为什么#6810会完全从CI管道中移除Tensor化器测试,而不是简单地跳过这个测试?现在可以悄悄地合并对Tensor化器支持的破坏性更改,除非我不清楚软失败的影响。

另外,测试运行器有没有发生变化?这个测试之前并没有抱怨OOM错误。我们能否撤销#6810将Tensor化器测试降级为软失败并跳过失败的测试(s)?在此期间,我会努力解决它们。

有没有可能这个测试实际上是在有帮助地失败?为什么运行器无法分配1.5GB的VRAM?仅仅是尝试示例化这个

vllm_runner(model_ref)

就发生了OOM,这让我困惑为什么这会表明测试本身不稳定。我们确定在测试之间进行了适当的清理吗?加载的模型在测试之间得到了适当的垃圾回收吗?使用大型模型和垃圾回收语言进行功能测试自然会存在OOM风险,除非强制执行适当的清理。

siv3szwd

siv3szwd2#

#6810 将测试分开,但Tensor化器测试仍然在完整的CI测试中:
vllm/.buildkite/test-pipeline.yaml
第221行 062a1d0
| | - label: Tensorizer Test |
之前我们测试了两次,与其他一些测试结合在一起。

rvpgvaaj

rvpgvaaj3#

#6810 将测试分开,但Tensor化器测试仍然在完整的CI测试中:
vllm/.buildkite/test-pipeline.yaml
第221行 062a1d0
| | - label: Tensorizer Test |
之前我们测试了两次,与其他一些测试结合在一起。
我明白了,感谢您的澄清!我会调查这个问题,以确保我们可以在CI套件中保持完整的Tensor化器测试。

ugmeyewa

ugmeyewa4#

我们是否确定在测试之间进行了适当的清理?加载的模型是否在测试之间得到了正确的垃圾回收?
确实有可能是由于适当的清理和垃圾回收引起的。你可以尝试调查,如果这是原因所在,你至少可以隔离测试。

3b6akqbq

3b6akqbq5#

我们是否确定在测试之间进行了适当的清理?加载的模型是否在测试之间得到了正确的垃圾回收?
确实可能是由于适当的清理和垃圾回收引起的。你可以尝试调查,如果这是原因,你至少可以隔离测试。
听起来不错。谢谢你提醒我!我会调查这个问题。

相关问题