使用llama.cpp库,我做了:struct llama_model* model = llama_load_model_from_file(input_model_path, params);如何将其保存回磁盘的gguf格式?我之所以询问,是因为我编写了一个修改模型权重的程序。所以我加载一个GGUF,然后修改模型权重,然后我需要将其保存回去。
struct llama_model* model = llama_load_model_from_file(input_model_path, params);
ars1skjm1#
如何将其以gguf格式保存回磁盘?目前尚未实现
jutyujz02#
@ggerganov,这将非常有用。
huwehgph3#
llama_model 接口不允许修改Tensor。它是已加载模型的只读表示。如果您想修改Tensor,可以使用ggml提供的 gguf_* 函数,或者使用 gguf-py 在Python中修改它们(注意:Python不支持读取Q类型的量化)您可以阅读 examples/gguf 以了解其工作原理。
llama_model
gguf_*
gguf-py
examples/gguf
dojqjjoe4#
llama_model 接口不允许修改Tensor。这是加载模型的只读表示。如果您想修改Tensor,可以使用ggml提供的 gguf_* 函数,或者使用 gguf-py 在python中修改它们(注意:python不支持读取Q类型的量化)您可以阅读 examples/gguf 以了解其工作原理。算了吧。我修改了量化程序,现在我可以在任何量化水平上修改任何模型的Tensor。可惜的是,llama.cpp不支持这个功能。
4条答案
按热度按时间ars1skjm1#
如何将其以gguf格式保存回磁盘?
目前尚未实现
jutyujz02#
@ggerganov,这将非常有用。
huwehgph3#
llama_model
接口不允许修改Tensor。它是已加载模型的只读表示。如果您想修改Tensor,可以使用ggml提供的
gguf_*
函数,或者使用gguf-py
在Python中修改它们(注意:Python不支持读取Q类型的量化)您可以阅读
examples/gguf
以了解其工作原理。dojqjjoe4#
llama_model
接口不允许修改Tensor。这是加载模型的只读表示。如果您想修改Tensor,可以使用ggml提供的
gguf_*
函数,或者使用gguf-py
在python中修改它们(注意:python不支持读取Q类型的量化)您可以阅读
examples/gguf
以了解其工作原理。算了吧。我修改了量化程序,现在我可以在任何量化水平上修改任何模型的Tensor。
可惜的是,llama.cpp不支持这个功能。