在使用tp=2进行贪婪模型和vllm 0.3中的推理模型时,结果是随机的,而不是相同的。但是当我使用--disable-custom-all-reduce时,它就可以了。我的模型结构与llama相同。我不知道为什么?
9rnv2umw1#
你好,@王二小,感谢你报告这个bug。你能分享更多关于你的环境的细节吗(例如,GPUs、提示等),这样我们就可以重现bug?
kd3sttzy2#
你好,@WangErXiao,感谢你报告这个bug。你能分享更多关于你的环境的细节吗(例如,GPUs、提示等),这样我们才能重现bug?我使用的是L40S,驱动版本:535.129.03,CUDA版本:12.2
2条答案
按热度按时间9rnv2umw1#
你好,@王二小,感谢你报告这个bug。你能分享更多关于你的环境的细节吗(例如,GPUs、提示等),这样我们就可以重现bug?
kd3sttzy2#
你好,@WangErXiao,感谢你报告这个bug。你能分享更多关于你的环境的细节吗(例如,GPUs、提示等),这样我们才能重现bug?
我使用的是L40S,驱动版本:535.129.03,CUDA版本:12.2