当前环境
版本:v0.4.1
设备:A800*2
型号:qwen-14b-chat
🐛 描述bug
我在以下代码中添加了一个print语句。
# vllm.model_executor.layers.sampler.py
# line 53-58
assert logits is not None
_, vocab_size = logits.shape
print(torch.mean(logits).cpu()) # I added my code here
# Apply min_tokens penalty which sets stop tokens to -inf if min_tokens
# have not been generated yet
logits = _apply_min_tokens_penalty(logits, sampling_metadata)
即使在使用相同的解码参数,当我将tensor-parallel-size从1增加到2时,输出logits仍然发生变化。
2条答案
按热度按时间brgchamk1#
当前环境
版本:v0.4.1
设备:A800*2
型号:qwen-14b-chat
🐛 描述bug
我在以下代码中添加了一个print语句。
即使在使用相同的解码参数,当我将tensor-parallel-size从1增加到2时,输出logits仍然发生变化。
我在生成过程中使用了"seed=1024"。
wlp8pajw2#
差异有多大,你能展示一个复现脚本吗?