mlc-llm [Bug] 基于Qwen-72B的一些llamafied模型兼容性测试

6qftjkof  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(38)

🐛 Bug

我对使用mlc-llm在OpenLLM Leaderboard上尝试新模型很感兴趣。由于Qwen尚未支持多GPU推理,我尝试了多个基于Qwen-72b的llamafied模型。我希望这有助于mlc-llm的开发。
| 模型 | 日期 | 架构 | 模板 | 转换 | 配置 | 编译 | 推理 | 解码速度(speed) | 备注 |
| ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ |
| Weyaxi/Qwen-72B-Llama | 20240302 | llama | gpt2 | TRUE | TRUE | TRUE | FALSE | 17.237 | 输出错误 |
| CausalLM/72B-preview-llamafied-qwen-llamafy | lagency | llama | gpt2 | TRUE | TRUE | TRUE | FALSE | ~16 | 输出错误 |
| moreh/MoMo-72B-LoRA-V1.4 | 20240302 | llama | gpt2 | TRUE | TRUE | TRUE | FALSE | 16.744 | 输出错误 |
| abacusai/Smaug-72B-v0.1 | 20240302 | llama | gpt2 | TRUE | TRUE | TRUE | FALSE | 16.818 | 输出错误 |

注意:Weyaxi/Qwen-72B-LlamaCausalLM/72B-preview-llamafied-qwen-llamafy需要手动修复分词器文件,请按照以下方法操作。

这些模型在整个过程中都没有致命错误,但在推理时输出混乱的文本。
所有模型在模型转换过程中都有Unused extern parameters警告。像这样的未使用外部参数警告:[2024-03-05 13:58:11] WARNING utils.py:25: Unused extern parameters: model.layers.0.self_attn.k_proj.bias, model.layers.0.self_attn.o_proj.bias, model.layers.0.self_attn.q_proj.bias, model.layers.0.self_attn.v_proj.bias...
请下载附加文件以获取完整的日志信息
20240302 test log.zip

要重现的问题

预期行为

应输出正常文本

环境

  • 平台:CUDA
  • 操作系统:Ubuntu 22.04.3 LTS (5.15.0-91-generic)
  • 设备:Tesla P100 x4
  • 如何安装MLC-LLM:python3 -m pip install --pre -U -f https://mlc.ai/wheels mlc-chat-nightly-cu121 mlc-ai-nightly-cu121
  • 如何安装TVM-Unity:python3 -m pip install --pre -U -f https://mlc.ai/wheels mlc-chat-nightly-cu121 mlc-ai-nightly-cu121
  • Python版本:3.11
  • GPU驱动程序版本:545.23.08
  • CUDA/cuDNN版本:12.1
  • TVM Unity哈希标签:参见附加文件
  • 其他相关信息:开启

其他上下文

混乱输出示例

相关问题