ollama 在推理过程中获取注意力矩阵,类似于transformers包中的output_attentions=True参数,

uajslkp6  于 22天前  发布在  其他
关注(0)|答案(2)|浏览(21)

我想为Ollama提出一个新功能:在模型推理过程中访问注意力矩阵和/或KV-Cache的能力。这个功能类似于Hugging Face Transformers库中提供的功能,用户可以设置output_attentions=True或访问past_key_values

new9mtju

new9mtju1#

这更像是对llama.cpp的一个功能请求。

i34xakig

i34xakig2#

这更像是对llama.cpp的一个功能请求。
好的,谢谢。

相关问题