mlc-llm [Bug] 基于Qwen-72B的一些llamafied模型兼容性测试

6qftjkof 于 2个月前发布在其他

关注(0)|答案(1)|浏览(38)

🐛 Bug

我对使用mlc-llm在OpenLLM Leaderboard上尝试新模型很感兴趣。由于Qwen尚未支持多GPU推理，我尝试了多个基于Qwen-72b的llamafied模型。我希望这有助于mlc-llm的开发。
| 模型 | 日期 | 架构 | 模板 | 转换 | 配置 | 编译 | 推理 | 解码速度(speed) | 备注 |
| ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ |
| Weyaxi/Qwen-72B-Llama | 20240302 | llama | gpt2 | TRUE | TRUE | TRUE | FALSE | 17.237 | 输出错误 |
| CausalLM/72B-preview-llamafied-qwen-llamafy | lagency | llama | gpt2 | TRUE | TRUE | TRUE | FALSE | ~16 | 输出错误 |
| moreh/MoMo-72B-LoRA-V1.4 | 20240302 | llama | gpt2 | TRUE | TRUE | TRUE | FALSE | 16.744 | 输出错误 |
| abacusai/Smaug-72B-v0.1 | 20240302 | llama | gpt2 | TRUE | TRUE | TRUE | FALSE | 16.818 | 输出错误 |

注意:Weyaxi/Qwen-72B-Llama和CausalLM/72B-preview-llamafied-qwen-llamafy需要手动修复分词器文件，请按照以下方法操作。

这些模型在整个过程中都没有致命错误，但在推理时输出混乱的文本。
所有模型在模型转换过程中都有Unused extern parameters警告。像这样的未使用外部参数警告：[2024-03-05 13:58:11] WARNING utils.py:25: Unused extern parameters: model.layers.0.self_attn.k_proj.bias, model.layers.0.self_attn.o_proj.bias, model.layers.0.self_attn.q_proj.bias, model.layers.0.self_attn.v_proj.bias...
请下载附加文件以获取完整的日志信息
20240302 test log.zip

要重现的问题

预期行为

应输出正常文本

环境

平台：CUDA
操作系统：Ubuntu 22.04.3 LTS (5.15.0-91-generic)
设备：Tesla P100 x4
如何安装MLC-LLM:python3 -m pip install --pre -U -f https://mlc.ai/wheels mlc-chat-nightly-cu121 mlc-ai-nightly-cu121
如何安装TVM-Unity:python3 -m pip install --pre -U -f https://mlc.ai/wheels mlc-chat-nightly-cu121 mlc-ai-nightly-cu121
Python版本：3.11
GPU驱动程序版本：545.23.08
CUDA/cuDNN版本：12.1
TVM Unity哈希标签：参见附加文件
其他相关信息：开启