inference 安装llama-cpp-python cuda 推理加速支持时,提示"找不到nvcc,请设置CUDAToolkit_ROOT,"

edqdpe6u  于 4个月前  发布在  Python
关注(0)|答案(3)|浏览(54)

系统信息 / 系统信息

0.13.3 最新版本

是否使用 Docker 运行 Xinference? / 是否使用 Docker 运行 Xinfernece?

  • docker / docker
  • pip install / 通过 pip install 安装
  • installation from source / 从源码安装

版本信息 / 版本信息

最新版本

用以启动 xinference 的命令 / 用以启动 xinference 的命令

CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python -i https://pypi.tuna.tsinghua.edu.cn/simple

复现过程 / 复现过程

CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python -i https://pypi.tuna.tsinghua.edu.cn/simple

期待表现 / 期待表现

能够支持 llama.cpp(CUDA 加速支持)
CMAKE_ARGS="-DGGML_CUDA=on" pip install llama-cpp-python

相关问题