ollama 请添加 nvidia/Nemotron-4-340B-Instruct

gab6jxml 于 6个月前发布在其他

关注(0)|答案(4)|浏览(86)

我的GPU没有充分利用，我需要旋转我的H200s!
只是开玩笑，需要模型的量化版本；)

来源：https://github.com/ollama/ollama/issues/5068

4条答案

按热度按时间

如何在macOS上运行此模型？ #nemotron

赞(0）回复(0）举报 6个月前

量化版本的理论上需要170GB的RAM,对吧？总的来说，这并不是那么绝望！)

赞(0）回复(0）举报 6个月前

我很想买一台新的苹果电脑。

赞(0）回复(0）举报 6个月前

llama3:70b-instruct-q2_K (26GB 大小，大约 2.9bpw)实际上表现并不差。在 Nemotron 上，我们可能可以测试在大模型下量化的激进程度。对于 Nemotron 来说，2.9bpw 大约会产生 126 GB。在租用的硬件上仍可以运行，花费不多。这将是非常有趣的测试。

赞(0）回复(0）举报 6个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 5个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 5个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 5个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 5个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前