vllm [用法]:GPTQ量化行为

wgxvkvu9 于 5个月前发布在其他

关注(0)|答案(1)|浏览(72)

当前环境信息如下：

PyTorch版本：2.3.0+cu121
是否为调试构建：否
用于构建PyTorch的CUDA版本：12.1
用于构建PyTorch的ROCM版本：N/A
操作系统：Debian GNU/Linux 11(bullseye) (x86_64)
GCC版本：(Debian 10.2.1-6) 10.2.1 20210110
Clang版本：无法收集
CMake版本：3.28.1
Libc版本：glibc-2.31
Python版本：3.10.13 | packaged by conda-forge (main, Dec 23, 2023, 15:36:39) [GCC 12.3.0] (64-bit runtime)
Python平台：Linux-5.10.0-31-cloud-amd64-x86_64-with-glibc2.31
是否可用CUDA:是
CUDA运行时版本：11.8.89
CUDA_MODULE_LOADING设置为：LAZY
GPU和模型配置：GPU 0:NVIDIA L4
Nvidia驱动版本：525.105.17
cuDNN版本：无法收集
HIP运行时版本：N/A
MIOpen运行时版本：N/A
XNNPACK可用：是
CPU架构：x86_64
CPU op-mode(s):32位， 64位
字节序：Little Endian
地址大小：46 bits physical, 48 bits virtual
CPU数量：16
在线CPU列表：0-15
线程数：每核心2个
核心数/线程数：8/socket
Socket数量：1
NUMA节点数：1
供应商ID:GenuineIntel
CPU家族：6
型号：850
模型名称：Intel(R) Xeon(R) CPU @ 2.20GHz
步进：7
CPU MHz:2200.162
BogoMIPS:4400.32
虚拟化类型：full
L1d缓存大小：256 KiB
L1i缓存大小：256 KiB
L2缓存大小：8 MiB
L3缓存大小：38.5 MiB
NUMA节点0 CPU(s):0-15
漏洞扳手数据采样状态：无影响
漏洞扳手Itlb multihit状态：无影响
漏洞扳手Ltf状态：无影响
漏洞扳手Mds状态：无影响
漏洞扳手Meltdown状态：无影响
漏洞扳手Mmio stale data状态：Vulnerable;Clear CPU buffers attempted, no microcode; SMT Host state unknown
漏洞扳手Reg file data sampling状态：无影响
漏洞扳手Retblection状态：已修复；Enhanced IBRS;IBPBR conditionality, RSB filling, PBRSB-eIBRS SW sequence
漏洞扳手Spec store bypass状态：已修复；Speculative Store Bypass disabled via prctl and seccomp
漏洞扳手Spectre v1状态：已修复；usercopy/swapgs barriers and __user pointer sanitization
漏洞扳手Spectre v2状态：已修复；Enhanced / Automatic IIBRS, IBPB conditionality, RSB filling, PBRSB-eIBRS SW sequence
漏洞扳手Srbds状态：无影响
漏洞扳手Tsx async abort状态：Vulnerable;Clear CPU buffers attempted, no microcode; SMT Host state unknown
在启动过程中，我看到以下日志行：