我想为Ollama提出一个新功能:在模型推理过程中访问注意力矩阵和/或KV-Cache的能力。这个功能类似于Hugging Face Transformers库中提供的功能,用户可以设置output_attentions=True或访问past_key_values。
output_attentions=True
past_key_values
new9mtju1#
这更像是对llama.cpp的一个功能请求。
i34xakig2#
这更像是对llama.cpp的一个功能请求。好的,谢谢。
2条答案
按热度按时间new9mtju1#
这更像是对llama.cpp的一个功能请求。
i34xakig2#
这更像是对llama.cpp的一个功能请求。
好的,谢谢。