问题:使用xinference作为后台服务时,无法同时让多人进行提问,

xesrikrc  于 4个月前  发布在  其他
关注(0)|答案(3)|浏览(45)

运行环境是:

  • Ubuntu 22
  • Python 3.10.9
  • Xinference 0.9.0
    使用Xinference作为后台服务,部署的是ChatGLM3模型。当两个浏览器客户端同时提问时,发现必须不能同时回复模型推理内容,只能等待一个完成后,下一个才会回复。
vlf7wbxs

vlf7wbxs1#

如果有GPU,可以考虑使用VLLVM推理引擎。

bgibtngc

bgibtngc2#

如果有GPU,可以考虑使用VLLME推理引擎。

这个问题已经解决了,确实与引擎有关。在使用Xinference发布的本地模型时,你是否发现使用的显存比模型本身带的demo大很多?例如:chatglm3,在使用Xinference时显存超过22G,而自带的demo使用不到13G显存。

5vf7fwbs

5vf7fwbs3#

如果有GPU,可以考虑使用VLLME推理引擎。

这个问题已经解决了,确实与引擎有关。你在使用Xinference发布的本地模型时,是否发现使用的显存比模型本身带的demo要大很多?例如:chatglm3,使用Xinference时显存超过22G,而自带的demo使用不到13G显存。

如何使用VLLME推理引擎?我按照官方文档操作,按道理应该是自动选择了VLLME推理引擎,但是还是需要先回答上一个问题才能回答下一个。

相关问题