vllm [RFC]:支持在LLM或Server入口点中指定quant_config详细信息,

7ivaypg9  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(27)

🚀 功能、动机和推销

背景:

随着在 #4652#4690 中引入对 deepspeedfp 量化的支持,由于运行时量化实现的性质,出现了一个新的问题。这种实现允许用户加载未量化的模型,并启用量化参数以减少加载模型所需的内存占用。然而,主要的挑战在于 deepspeedfp 实现具有一个参数 num_bits ,该参数支持将权重量化为 8 位或 6 位,默认值设置为 8。

问题陈述:

目前,如果用户想要应用 quantization="deepspeedfp" ,vLLM 只能将其量化为 num_bits=8 ,因为这是默认值。唯一改变这种行为的方法是通过提供一个 quant_config.json 文件来明确定义 num_bits 的期望值。这种限制使用户难以轻松自定义量化设置而不修改配置文件。

建议的解决方案:

为了解决这个问题,我们建议在 vLLM 中的通用 LLM() 和 OpenAI 服务器接口中添加一个新的参数 quant_kwargs=Union[str, Dict] 。这个参数将接受一个关键字参数字典或可以转换为字典的字符串。quant_kwargs 的目的是允许用户覆盖默认值或加载的配置值的量化配置。
通过引入这个新参数,用户可以直接通过 API 指定自定义量化设置,而无需修改 quant_config.json 文件。这种增强提高了在 vLLM 中应用量化的可用性和便利性,使用户能够根据其特定需求轻松尝试不同的量化设置。

其他方案

  • 无响应*

其他上下文

  • 无响应*

相关问题