当前环境信息如下:
- 安装了vllm版本0.4.2和nvidia-ammo版本0.7.1
- PyTorch版本:2.3.0+cu121
- 是否为调试构建:否
- 使用的CUDA版本:12.1
- 是否使用ROCM:否
- 操作系统:Ubuntu 22.04.3 LTS(x86_64)
- GCC版本:(Ubuntu 11.4.0-1ubuntu1~22.04) 11.4.0
- Clang版本:无法收集
- CMake版本:3.27.6
- Libc版本:glibc-2.35
- Python版本:3.10.12(主, Jun 11 2023, 05:26:28) [GCC 11.4.0] (64位)
- Python平台:Linux-3.10.0-1160.108.1.el7.x86_64-x86_64-with-glibc2.35
- 是否支持CUDA:是
- CUDA运行时版本:12.2.140
- GPU模型和配置:
GPU 0:NVIDIA A10
GPU 1:NVIDIA A10
GPU 2:NVIDIA A10
GPU 3:NVIDIA A10
GPU 4:NVIDIA A10
GPU 5:NVIDIA A10
GPU 6:NVIDIA A10
GPU 7:NVIDIA A10 - Nvidia驱动版本:535.129.03
- cuDNN版本:可能在以下之一:
/usr/lib/x86_64-linux-gnu/libcudnn.so.8.9.5
/usr/lib/x86_64-linux-gnu/libcudnn_adv_infer.so.8.9.5
/usr/lib/x86_64-linux-gnu/libcudnn_adv_train.so.8.9.5
/usr/lib/x86_64-linux-gnu/libcudnn_cnn_infer.so.8.9.5
/usr/lib/x86_64-linux-gnu/libcudnn_cnn_train.so.8.9.5
/usr/lib/x86_64-linux-gnu/libcudnn_ops_infer.so.8.9.5
/usr/lib/x86_64-linux-gnu/libcudnn_ops_train.so.8.9.5
HIP运行时版本:N/A
MIOpen运行时版本:N/A - XNNPACK可用性:是
SYS = 连接遍历PCIe以及NUMA节点之间的SMP互连(例如,QPI/UPI)
NODE = 连接遍历PCIe以及NUMA节点内的PCIe主机桥之间的互连
PHB = 连接遍历PCIe以及一个PCIe主机桥(通常是CPU)
PXB = 连接遍历多个PCIe桥(不遍历PCIe主机桥)
PIX = 连接最多遍历一个PCIe桥
NV# = 连接遍历一组# NVLinks的绑定
NIC图例:
NIC0: mlx5_0
NIC1: mlx5_1
🐛 描述bug
运行命令:python quantize.py --model_dir /workspace/models2/Qwen1.5-72B-Chat-GPTQ-Int4 --dtype float16 \ --qformat fp8 --kv_cache_dtype fp8 --output_dir /workspace/output_models/qwen-72b_int4_fp8 \ --calib_size 512 --tp_size 4
得到:
1条答案
按热度按时间sirbozc51#
当我尝试转换Qwen-14B-GPTQ-int4时,我遇到了类似的错误,并使用了最新发布的
modelopt
库。看起来
ammo
或modelopt
无法处理量化模型,它们没有对gptq进行量化支持。也许modelopt.torch.export.export_tensorrt_llm_checkpoint
(以及ammo
中的相关函数)应该对QuantLinear
层进行适应。