vllm [RFC]:支持在LLM或Server入口点中指定quant_config详细信息,

7ivaypg9 于 2个月前发布在其他

关注(0)|答案(1)|浏览(27)

🚀 功能、动机和推销

背景：

随着在 #4652 和 #4690 中引入对 deepspeedfp 量化的支持，由于运行时量化实现的性质，出现了一个新的问题。这种实现允许用户加载未量化的模型，并启用量化参数以减少加载模型所需的内存占用。然而，主要的挑战在于 deepspeedfp 实现具有一个参数 num_bits ,该参数支持将权重量化为 8 位或 6 位，默认值设置为 8。

问题陈述：

目前，如果用户想要应用 quantization="deepspeedfp" ,vLLM 只能将其量化为 num_bits=8 ,因为这是默认值。唯一改变这种行为的方法是通过提供一个 quant_config.json 文件来明确定义 num_bits 的期望值。这种限制使用户难以轻松自定义量化设置而不修改配置文件。

建议的解决方案：

为了解决这个问题，我们建议在 vLLM 中的通用 LLM() 和 OpenAI 服务器接口中添加一个新的参数 quant_kwargs=Union[str, Dict] 。这个参数将接受一个关键字参数字典或可以转换为字典的字符串。quant_kwargs 的目的是允许用户覆盖默认值或加载的配置值的量化配置。
通过引入这个新参数，用户可以直接通过 API 指定自定义量化设置，而无需修改 quant_config.json 文件。这种增强提高了在 vLLM 中应用量化的可用性和便利性，使用户能够根据其特定需求轻松尝试不同的量化设置。