ollama 请添加 nvidia/Nemotron-4-340B-Instruct

gab6jxml  于 2个月前  发布在  其他
关注(0)|答案(4)|浏览(64)

我的GPU没有充分利用,我需要旋转我的H200s!
只是开玩笑,需要模型的量化版本;)

t3irkdon

t3irkdon1#

如何在macOS上运行此模型? #nemotron

tmb3ates

tmb3ates2#

量化版本的理论上需要170GB的RAM,对吧?总的来说,这并不是那么绝望!)

ql3eal8s

ql3eal8s3#

我很想买一台新的苹果电脑。

vsikbqxv

vsikbqxv4#

llama3:70b-instruct-q2_K (26GB 大小,大约 2.9bpw)实际上表现并不差。在 Nemotron 上,我们可能可以测试在大模型下量化的激进程度。对于 Nemotron 来说,2.9bpw 大约会产生 126 GB。在租用的硬件上仍可以运行,花费不多。这将是非常有趣的测试。

相关问题