当使用tp=2在贪婪模式下推理模型,并使用vllm 0.3时,结果是随机的,

kg7wmglp  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(33)

在使用tp=2进行贪婪模型和vllm 0.3中的推理模型时,结果是随机的,而不是相同的。但是当我使用--disable-custom-all-reduce时,它就可以了。我的模型结构与llama相同。我不知道为什么?

9rnv2umw

9rnv2umw1#

你好,@王二小,感谢你报告这个bug。你能分享更多关于你的环境的细节吗(例如,GPUs、提示等),这样我们就可以重现bug?

kd3sttzy

kd3sttzy2#

你好,@WangErXiao,感谢你报告这个bug。你能分享更多关于你的环境的细节吗(例如,GPUs、提示等),这样我们才能重现bug?
我使用的是L40S,驱动版本:535.129.03,CUDA版本:12.2

相关问题