ollama 在推理过程中获取注意力矩阵，类似于transformers包中的output_attentions=True参数,

uajslkp6 于 5个月前发布在其他

关注(0)|答案(2)|浏览(138)

我想为Ollama提出一个新功能：在模型推理过程中访问注意力矩阵和/或KV-Cache的能力。这个功能类似于Hugging Face Transformers库中提供的功能，用户可以设置output_attentions=True或访问past_key_values。

来源：https://github.com/ollama/ollama/issues/6454

2条答案

按热度按时间

这更像是对llama.cpp的一个功能请求。

赞(0）回复(0）举报 5个月前

这更像是对llama.cpp的一个功能请求。
好的，谢谢。

赞(0）回复(0）举报 5个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 5个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 5个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 5个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 5个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 5个月前