🐛 Bug
我对使用mlc-llm在OpenLLM Leaderboard上尝试新模型很感兴趣。由于Qwen尚未支持多GPU推理,我尝试了多个基于Qwen-72b的llamafied模型。我希望这有助于mlc-llm的开发。
| 模型 | 日期 | 架构 | 模板 | 转换 | 配置 | 编译 | 推理 | 解码速度(speed) | 备注 |
| ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ | ------------ |
| Weyaxi/Qwen-72B-Llama | 20240302 | llama | gpt2 | TRUE | TRUE | TRUE | FALSE | 17.237 | 输出错误 |
| CausalLM/72B-preview-llamafied-qwen-llamafy | lagency | llama | gpt2 | TRUE | TRUE | TRUE | FALSE | ~16 | 输出错误 |
| moreh/MoMo-72B-LoRA-V1.4 | 20240302 | llama | gpt2 | TRUE | TRUE | TRUE | FALSE | 16.744 | 输出错误 |
| abacusai/Smaug-72B-v0.1 | 20240302 | llama | gpt2 | TRUE | TRUE | TRUE | FALSE | 16.818 | 输出错误 |
注意:Weyaxi/Qwen-72B-Llama
和CausalLM/72B-preview-llamafied-qwen-llamafy
需要手动修复分词器文件,请按照以下方法操作。
这些模型在整个过程中都没有致命错误,但在推理时输出混乱的文本。
所有模型在模型转换过程中都有Unused extern parameters
警告。像这样的未使用外部参数警告:[2024-03-05 13:58:11] WARNING utils.py:25: Unused extern parameters: model.layers.0.self_attn.k_proj.bias, model.layers.0.self_attn.o_proj.bias, model.layers.0.self_attn.q_proj.bias, model.layers.0.self_attn.v_proj.bias...
请下载附加文件以获取完整的日志信息
20240302 test log.zip
要重现的问题
预期行为
应输出正常文本
环境
- 平台:CUDA
- 操作系统:Ubuntu 22.04.3 LTS (5.15.0-91-generic)
- 设备:Tesla P100 x4
- 如何安装MLC-LLM:
python3 -m pip install --pre -U -f https://mlc.ai/wheels mlc-chat-nightly-cu121 mlc-ai-nightly-cu121
- 如何安装TVM-Unity:
python3 -m pip install --pre -U -f https://mlc.ai/wheels mlc-chat-nightly-cu121 mlc-ai-nightly-cu121
- Python版本:3.11
- GPU驱动程序版本:545.23.08
- CUDA/cuDNN版本:12.1
- TVM Unity哈希标签:参见附加文件
- 其他相关信息:开启
其他上下文
混乱输出示例
1条答案
按热度按时间tyu7yeag1#
谢谢,正在努力重现那个。