ollama 有任何计划添加队列状态端点吗?

bihw5rsg  于 2个月前  发布在  其他
关注(0)|答案(5)|浏览(71)

你好。
感谢这个很酷的服务器。我正在开发一个与多个服务/模型兼容的开源AI工具,其中之一就是ollama。不过我需要在多个客户端设置中使用它。
为了实现这一点,我运行多个服务器(例如ollama服务),并希望使用队列状态来决定将请求路由到哪个服务器。
有没有办法获取一个端点来显示处理多个连接时的队列中的请求数量?
我需要在多个服务器之间共享负载。我的客户端需要询问每个服务器队列的状态,以便知道哪个服务器可以处理负载。
例如,如果我有三个服务器,第一个服务器队列中有2个请求,第二个服务器队列中有1个请求,最后一个服务器队列中有0个请求,那么我会选择第三个服务器。这样的想法是让客户端寻找队列中请求较少的服务器,从而允许我同时为多个lollms客户端提供服务。
这可能会非常有用。
另外,如果你能将lollms添加到可以使用ollama服务器的前端列表中,那就太棒了:
LoLLMS .
谢谢!

qvsjd97n

qvsjd97n1#

很遗憾,目前没有办法判断。服务器会在处理一个连接时阻塞其他所有连接,然后这些连接会竞相尝试被服务。这并不是理想的情况。我们肯定会在未来努力改进这个问题。

jhiyze9q

jhiyze9q2#

I guess I have to handle this on my end then. I'll add a proxy that counts the connections and route them to multiple servers.

l7wslrjt

l7wslrjt3#

好的,完成了。我已经为它创建了一个单独的存储库。它还使用密钥处理权限和用户认证(就像openai api一样):

$https://github.com/ParisNeo/ollama_proxy_server$

vmjh9lq9

vmjh9lq94#

在Kubernetes中,您还可以将其运行在负载均衡器后面。配置nginx代理以连接到裸金属主机相当容易,并且可以配置SSL透传或SSL终止。Kubernetes集群还允许您集成OAUTH解决方案来管理连接。

cpjpxq1n

cpjpxq1n5#

关于这个是否有更新?@dhiltgen

相关问题