Slurm是一个用于管理并调度计算机集群上工作负载的实用程序。许多学术机构使用它来分配计算资源。我想知道是否可以实现一个接口,允许通过Slurm作业加载的模型使用聊天界面。这样,您的请求将被排队,当计算完成时,Ollama将输出结果。有多种方法可以实现这一点:
- 允许单个响应子命令,该命令启动服务器、运行查询并在接收到输出时杀死服务器,例如:
$ ollama singlerun mistral --message "what is the meaning of life"
[answer]
- 将Slurm调度集成到Ollama中
- 为Ollama编写一个 Package 器,实现上述第1点。
我希望就这个主题与社区进行讨论。
2条答案
按热度按时间jw5wzhpr1#
就我个人而言,我会选择不同的路线。在过去的一年左右的时间里,我反复问自己,在集群计算环境中进行简单的LLM推理的最佳方法是什么。但我从未感到有必要与作业调度器集成,原因有以下几点:
总的来说,我认为这是一个不合适的选择,并建议不要使用,只是因为你有其他更实用的选择,我强烈建议你考虑这些选择。但我也可能是以错误的方式看待这个问题 某种程度上,这是不可否认的有时是我自己的特点... 我愿意听取其他人对此的看法,并听取是否有一些需求/约束我没有考虑到。
编辑:再想一下,我可能过于草率地说不应该在集群环境中使用llama.cpp/GGML进行推理,因为在你有大约4-40GB VRAM可用的情况下,它是完全有效的。同样,ollama对于方便性也有一些意义。我仍然不能支持使用这种短暂的作业,但如果是一个专门用于一个群体的小(少于十几个节点)集群,对他们来说可能有意义,而我无权对此发表意见。
brqmpdu12#
我相信这个改进是有价值的。