vllm [Bug]:1-card部署和2-card部署产生不一致的输出logits,

uemypmqf  于 1个月前  发布在  Git
关注(0)|答案(2)|浏览(67)

当前环境
版本:v0.4.1
设备:A800*2
型号:qwen-14b-chat

🐛 描述bug

我在以下代码中添加了一个print语句。

# vllm.model_executor.layers.sampler.py
# line 53-58
assert logits is not None
_, vocab_size = logits.shape
print(torch.mean(logits).cpu()) # I added my code here
# Apply min_tokens penalty which sets stop tokens to -inf if min_tokens
# have not been generated yet
logits = _apply_min_tokens_penalty(logits, sampling_metadata)

即使在使用相同的解码参数,当我将tensor-parallel-size从1增加到2时,输出logits仍然发生变化。

brgchamk

brgchamk1#

当前环境
版本:v0.4.1
设备:A800*2
型号:qwen-14b-chat

🐛 描述bug

我在以下代码中添加了一个print语句。

# vllm.model_executor.layers.sampler.py
# line 53-58
assert logits is not None
_, vocab_size = logits.shape
print(torch.mean(logits).cpu()) # I added my code here
# Apply min_tokens penalty which sets stop tokens to -inf if min_tokens
# have not been generated yet
logits = _apply_min_tokens_penalty(logits, sampling_metadata)

即使在使用相同的解码参数,当我将tensor-parallel-size从1增加到2时,输出logits仍然发生变化。
我在生成过程中使用了"seed=1024"。

wlp8pajw

wlp8pajw2#

差异有多大,你能展示一个复现脚本吗?

相关问题