mlc-llm Phi-3 mini 4k 使用微软的量化技术进行指导,

w51jfk4q  于 5个月前  发布在  其他
关注(0)|答案(3)|浏览(98)

您可以使用PyTorch的量化工具来实现这一点。首先,您需要将模型转换为量化模型,然后使用torch.quantization.convert()函数将其转换为ONNX格式。接下来,您可以使用ONNX-ML库中的onnx2tf()函数将ONNX模型转换为TensorFlow模型。最后,您可以使用TensorFlow Lite将TensorFlow模型转换为TFLite模型。

b4wnujal

b4wnujal1#

感谢您的建议,我们仍然专注于进行重大重构以稳定通用部署用例,因此目前无法快速添加新的格式支持。
我认为这是社区努力探索的一个好方向。这里需要的主要是一个加载权重的自定义 loader ,以及一个将加载的权重Map到目标权重的 quantization 方案。

qc6wkl3g

qc6wkl3g2#

也许需要一个转换器?到目前为止,一般来说贡献者们已经生成了使用GGUF量化的模型,进行了后训练量化。但是如果像微软一样,其他大型供应商开始提供使用GGUF格式的量化感知训练量化权重,那么能够导入它们将会非常棒。

ghhkc1vu

ghhkc1vu3#

right,将加载器和量化结合起来实际上就相当于你提到的转换器。

相关问题