DeepSpeed-MII qwen1.5模型支持?

sdnqo3pr  于 6个月前  发布在  其他
关注(0)|答案(3)|浏览(185)

没有提供描述。

cvxl0en2

cvxl0en21#

microsoft/DeepSpeed#5219中添加了对Qwen1.5模型的支持。尝试运行其中一个模型时,您是否看到了错误?

kiz8lqtg

kiz8lqtg2#

我发现两个需要在DeepSpeed-MII上的qwen-1.5中改进的小问题。

  1. There is no bos token in qwen-1.5 ,因此当设置 return_full_text=True 时,这行代码(即, output_tokens = torch.cat((r.prompt_tokens[1:], output_tokens)) )将错过第一个标记。

  2. qwen-1.5的 tokenizer.vocab_size 是 151643,如果添加特殊标记(例如, <|im_start|>, <|im_end|>),则标记的数量将为 151646。请参阅 this 以获取更多详细信息。因此,这行代码(即, next_token_logits = next_token_logits[:, :self.vocab_size] )对于qwen-1.5来说效果不佳。它在生成文本时会错过特殊标记(<|im_end|>),并且在达到最大长度之前不会正常停止。

bq8i3lrv

bq8i3lrv3#

当我在使用RESTful API进行测试时,发现我的requests.post没有得到mii.serve的响应。查看后台进程后,发现我正在测试的URL已经完成。我需要按Ctrl+C结束,然后重新运行脚本。


![](//img.saoniuhuo.com/images/202407/43121721615067850.jpg)

![](//img.saoniuhuo.com/images/202407/76091721615069788.jpg)

![](//img.saoniuhuo.com/images/202407/46581721615072587.jpg)

@mrwyattii

相关问题