当我使用llama2-70b测试多GPU时,运行vllm/examples/offline_inference.py,使用参数enforce_eager=False,结果可以输出,但出现了一些错误。
vllm/examples/offline_inference.py
enforce_eager=False
错误代码位于:https://github.com/vllm-project/vllm/blob/main/vllm/worker/model_runner.py#L750
beq87vna1#
你好,我遇到了同样的问题。你解决了吗?谢谢!
xe55xuns2#
+1
rpppsulh3#
+1,你解决了这个问题吗?
9udxz4iz4#
这是一个cupy的bug,我们计划通过#3442移除cupy的依赖。请保持关注,或者您可以尝试使用在那个PR的CI构建过程中构建的docker镜像,例如docker pull us-central1-docker.pkg.dev/vllm-405802/vllm-ci-test-repo/vllm-test:a3c2340ae36ce8ee782691d30111377eaf7ae6ce。欢迎提供反馈!
cupy
docker pull us-central1-docker.pkg.dev/vllm-405802/vllm-ci-test-repo/vllm-test:a3c2340ae36ce8ee782691d30111377eaf7ae6ce
piok6c0g5#
你好,你介意在CuPy问题追踪器上提交一个bug吗?这样我们就不会掉链子了。谢谢!
5条答案
按热度按时间beq87vna1#
你好,我遇到了同样的问题。你解决了吗?谢谢!
xe55xuns2#
+1
rpppsulh3#
+1,你解决了这个问题吗?
9udxz4iz4#
这是一个
cupy
的bug,我们计划通过#3442移除cupy
的依赖。请保持关注,或者您可以尝试使用在那个PR的CI构建过程中构建的docker镜像,例如docker pull us-central1-docker.pkg.dev/vllm-405802/vllm-ci-test-repo/vllm-test:a3c2340ae36ce8ee782691d30111377eaf7ae6ce
。欢迎提供反馈!piok6c0g5#
你好,你介意在CuPy问题追踪器上提交一个bug吗?这样我们就不会掉链子了。谢谢!