运行环境是:
vlf7wbxs1#
如果有GPU,可以考虑使用VLLVM推理引擎。
bgibtngc2#
如果有GPU,可以考虑使用VLLME推理引擎。
这个问题已经解决了,确实与引擎有关。在使用Xinference发布的本地模型时,你是否发现使用的显存比模型本身带的demo大很多?例如:chatglm3,在使用Xinference时显存超过22G,而自带的demo使用不到13G显存。
5vf7fwbs3#
这个问题已经解决了,确实与引擎有关。你在使用Xinference发布的本地模型时,是否发现使用的显存比模型本身带的demo要大很多?例如:chatglm3,使用Xinference时显存超过22G,而自带的demo使用不到13G显存。
如何使用VLLME推理引擎?我按照官方文档操作,按道理应该是自动选择了VLLME推理引擎,但是还是需要先回答上一个问题才能回答下一个。
3条答案
按热度按时间vlf7wbxs1#
如果有GPU,可以考虑使用VLLVM推理引擎。
bgibtngc2#
如果有GPU,可以考虑使用VLLME推理引擎。
这个问题已经解决了,确实与引擎有关。在使用Xinference发布的本地模型时,你是否发现使用的显存比模型本身带的demo大很多?例如:chatglm3,在使用Xinference时显存超过22G,而自带的demo使用不到13G显存。
5vf7fwbs3#
如果有GPU,可以考虑使用VLLME推理引擎。
这个问题已经解决了,确实与引擎有关。你在使用Xinference发布的本地模型时,是否发现使用的显存比模型本身带的demo要大很多?例如:chatglm3,使用Xinference时显存超过22G,而自带的demo使用不到13G显存。
如何使用VLLME推理引擎?我按照官方文档操作,按道理应该是自动选择了VLLME推理引擎,但是还是需要先回答上一个问题才能回答下一个。