ollama CausalLM 14B support

trnvg8h3  于 2个月前  发布在  其他
关注(0)|答案(4)|浏览(28)

CausalLM 14B是一个SOTA 14B聊天模型(带着一点沙土的基准测试,完全兼容LLaMA 2)。

虽然这可能是一个错误的地方发布它,因为ollama.ai/library没有自己的问题跟踪器,我不得不在推理服务器的Github问题中加入这个请求。

7tofc5zh

7tofc5zh1#

这绝对是发布它的地方。非常感谢你的这样做。我们已经把它添加到我们的列表中了。你知道你也可以在ollama.ai上发布到你的命名空间吗?去ollama.ai,点击登录链接开始吧。文档中有导入文档,展示了所有要做的事情。

4ioopgfo

4ioopgfo2#

谢谢。我认为Ollama图书馆是一个精选的体验。
顺便说一下,这甚至与主题无关,但是Ollama图书馆是否会删除被指控故意过拟合的模型?是否合理地添加一个系统来取消列出模型,使它们可以下载并带有警告但隐藏在UI中,或者为这个和潜在的量化器/分词器错误提供建议?
我觉得这个空间正变得不堪重负,充满了实际性能不佳但评估过高的模型,所以也许Ollama可以解决这个问题的一部分?

doinxwow

doinxwow3#

@walking-octopus
Ollama.i/library是一个精选的体验
我们已经把它添加到我们的列表中了。你知道吗,如果你想的话,你还可以把它发布到你的命名空间
你的命名空间是你自己来管理的。
在Ollama库中,有没有你觉得应该被降级的特定模型?
当然有很多过高的评估和次优的实际表现,但也有很多指责和那些误配置了模型参数或者应用了自己定义不明确、个人标准的人,他们并不了解这个模型实际上应该用于什么目的。

6mw9ycah

6mw9ycah4#

在Ollama库中,你认为有哪些模型应该降级?
我认为一个合理的判断是,将Open LLM或Arena排行榜移除作为Ollama库移除/除名的理由,直到指控被证明没有超出合理怀疑的范围。我想评估结果与Arena之间的差异可以量化为一种怀疑程度的统计指标。
我想也许一个未公开的内部基准可能有助于添加到它上面。
至于“好”的一般定义,我想对于大多数现代LLM来说,这将是更多的语言建模任务,即“预测多样化语料库中的下一个词”,通过困惑度和一些评估来衡量。我想有些可能是完全主观的,例如AI Dungeon只能通过平均人类评分来评估。然后还有现代对LLM的使用,基本上是一个半残缺的AGI/搜索引擎/通用单词计算器,必须忠实地从微积分到地理小知识等范围内的各种概念进行建模,从而避免幻觉。我想其中一些确实是不同的情况,但得出它是不可改变的结论似乎有些悲观。此外,由于所有这些都是从语言建模中涌现出来的,也许如果你在调优时伤害了这个基本目标,那么很可能你是故意或无意地过拟合了。

相关问题