问题：使用xinference作为后台服务时，无法同时让多人进行提问,

xesrikrc 于 6个月前发布在其他

关注(0)|答案(3)|浏览(49)

运行环境是：

Ubuntu 22
Python 3.10.9
Xinference 0.9.0
使用Xinference作为后台服务，部署的是ChatGLM3模型。当两个浏览器客户端同时提问时，发现必须不能同时回复模型推理内容，只能等待一个完成后，下一个才会回复。

3条答案

如果有GPU,可以考虑使用VLLVM推理引擎。

如果有GPU,可以考虑使用VLLME推理引擎。

这个问题已经解决了，确实与引擎有关。在使用Xinference发布的本地模型时，你是否发现使用的显存比模型本身带的demo大很多？例如：chatglm3,在使用Xinference时显存超过22G,而自带的demo使用不到13G显存。

如果有GPU,可以考虑使用VLLME推理引擎。

这个问题已经解决了，确实与引擎有关。你在使用Xinference发布的本地模型时，是否发现使用的显存比模型本身带的demo要大很多？例如：chatglm3,使用Xinference时显存超过22G,而自带的demo使用不到13G显存。

如何使用VLLME推理引擎？我按照官方文档操作，按道理应该是自动选择了VLLME推理引擎，但是还是需要先回答上一个问题才能回答下一个。