🚀 功能、动机和推销
背景:
随着在 #4652 和 #4690 中引入对 deepspeedfp
量化的支持,由于运行时量化实现的性质,出现了一个新的问题。这种实现允许用户加载未量化的模型,并启用量化参数以减少加载模型所需的内存占用。然而,主要的挑战在于 deepspeedfp
实现具有一个参数 num_bits
,该参数支持将权重量化为 8 位或 6 位,默认值设置为 8。
问题陈述:
目前,如果用户想要应用 quantization="deepspeedfp"
,vLLM 只能将其量化为 num_bits=8
,因为这是默认值。唯一改变这种行为的方法是通过提供一个 quant_config.json
文件来明确定义 num_bits
的期望值。这种限制使用户难以轻松自定义量化设置而不修改配置文件。
建议的解决方案:
为了解决这个问题,我们建议在 vLLM 中的通用 LLM()
和 OpenAI 服务器接口中添加一个新的参数 quant_kwargs=Union[str, Dict]
。这个参数将接受一个关键字参数字典或可以转换为字典的字符串。quant_kwargs
的目的是允许用户覆盖默认值或加载的配置值的量化配置。
通过引入这个新参数,用户可以直接通过 API 指定自定义量化设置,而无需修改 quant_config.json
文件。这种增强提高了在 vLLM 中应用量化的可用性和便利性,使用户能够根据其特定需求轻松尝试不同的量化设置。
其他方案
- 无响应*
其他上下文
- 无响应*
1条答案
按热度按时间yrdbyhpb1#
你能用RFC进行标记吗?