DeepSpeed-MII qwen1.5模型支持？

sdnqo3pr 于 8个月前发布在其他

关注(0)|答案(3)|浏览(206)

没有提供描述。

DeepSpeed-MII

来源：https://github.com/microsoft/DeepSpeed-MII/issues/442

3条答案

按热度按时间

cvxl0en21#

在microsoft/DeepSpeed#5219中添加了对Qwen1.5模型的支持。尝试运行其中一个模型时，您是否看到了错误？

赞(0）回复(0）举报 8个月前

kiz8lqtg2#

我发现两个需要在DeepSpeed-MII上的qwen-1.5中改进的小问题。

There is no bos token in qwen-1.5 ,因此当设置 return_full_text=True 时，这行代码(即， output_tokens = torch.cat((r.prompt_tokens[1:], output_tokens)) )将错过第一个标记。
qwen-1.5的 tokenizer.vocab_size 是 151643,如果添加特殊标记(例如， <|im_start|>, <|im_end|>),则标记的数量将为 151646。请参阅 this 以获取更多详细信息。因此，这行代码(即， next_token_logits = next_token_logits[:, :self.vocab_size] )对于qwen-1.5来说效果不佳。它在生成文本时会错过特殊标记(<|im_end|>),并且在达到最大长度之前不会正常停止。

赞(0）回复(0）举报 8个月前

bq8i3lrv3#

当我在使用RESTful API进行测试时，发现我的requests.post没有得到mii.serve的响应。查看后台进程后，发现我正在测试的URL已经完成。我需要按Ctrl+C结束，然后重新运行脚本。


![](//img.saoniuhuo.com/images/202407/43121721615067850.jpg)
![](//img.saoniuhuo.com/images/202407/76091721615069788.jpg)
![](//img.saoniuhuo.com/images/202407/46581721615072587.jpg)
@mrwyattii

赞(0）回复(0）举报 8个月前

我来回答

DeepSpeed-MII qwen1.5模型支持？

3条答案

相关问题

热门标签

最新问答