inference GLM4-9B-chat模型推理报错

x33g5p2x  于 5个月前  发布在  其他
关注(0)|答案(1)|浏览(52)

系统信息 / 系统信息

显卡:V100 80G * 2
CUDA 版本:12.2

是否使用 Docker 运行 Xinference?

  • docker / docker
  • pip install / 通过 pip install 安装
  • installation from source / 从源码安装

版本信息 / 版本信息

inference在7.25号拉取的最新镜像
registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference latest 7ee919d45424 5 days ago 14.6GB

用以启动 xinference 的命令

docker run -d
-v /data/xinference/:/root/.xinference
-v /data/model/:/data/model
-e XINFERENCE_MODEL_SRC=modelscope
-e XINFERENCE_HOME=/data/model
-p 9997:9997
--gpus all
registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference:latest
xinference-local -H 0.0.0.0

复现过程

加载GLM4-9B-chat模型后,使用自带的页面进行推理,发现报错

期待表现 / 期待表现

期望解决这个报错,这个报错应该是流式输出相关的

o2gm4chl

o2gm4chl1#

已经在主分支修复,等本周发版再验证下。

相关问题