ollama CUDA错误:CUBLAS_STATUS_NOT_INITIALIZED

2lpgd968  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(27)

问题是什么?
错误信息:
CUDA 错误:CUBLAS_STATUS_NOT_INITIALIZED
当前设备:0,在函数cublas_handle中,位于/go/src/github.com/ollama/ollama/llm/llama.cpp/ggml/src/ggml-cuda/common.cuh:826
cublasCreate_v2(&cublas_handles[device])
模型:qwen2-sft,使用llama.cpp/convert_hf_to_gguf.py将数据传输到gguf;
环境1:Ubuntu 20+A800,CUDA 错误:CUBLAS_STATUS_NOT_INITIALIZED
环境2:Mac OS,正常运行

操作系统

Linux,Docker

GPU

Nvidia

CPU

Intel

Ollama版本

Ollama版本为0.2.7

q1qsirdb

q1qsirdb1#

CUDA错误:CUBLAS_STATUS_NOT_INITIALIZED
当前设备:0,在函数cublas_handle中,位于/go/src/github.com/ollama/ollama/llm/llama.cpp/ggml/src/ggml-cuda/common.cuh:826
cublasCreate_v2(&cublas_handles[device])
GGML_ASSERT: /go/src/github.com/ollama/ollama/llm/llama.cpp/ggml/src/ggml-cuda.cuemoji symbols:100 !"CUDA error"
时间=2024-07-19T18:17:53.430+08:00 级别=INFO 来源=server.go:612 消息="等待服务器变为可用" 状态="llm服务器无响应"
时间=2024-07-19T18:17:59.996+08:00 级别=INFO 来源=server.go:612 消息="等待服务器变为可用" 状态="llm服务器错误"
时间=2024-07-19T18:18:00.247+08:00 级别=ERROR 来源=sched.go:443 消息="加载llama服务器出错" 错误="llama运行器进程已终止:信号:中止(核心转储)CUDA错误"
[GIN] 2024/07/19 - 18:18:00 | 500 | 17.219251827s | 127.0.0.1 | POST "/api/chat"
时间=2024-07-19T18:18:05.644+08:00 级别=WARN 来源=sched.go:634 消息="GPU VRAM使用量在超时时间内未恢复" 秒数=5.397515954 模型=/root/.ollama/models/blobs/sha256-01bf5e0739037fb9f63fd3be28135437f89cc1ea27e263f1cd2308ef1c57dd38
时间=2024-07-19T18:18:05.865+08:00 级别=WARN 来源=sched.go:634 消息="GPU VRAM使用量在超时时间内未恢复" 秒数=5.618106055 模型=/root/.ollama/models/blobs/sha256-01bf5e0739037fb9f63fd3be28135437f89cc1ea27e263f1cd2308ef1c57dd38
时间=2024-07-19T18:18:06.115+08:00 级别=WARN 来源=sched.go:634 消息="GPU VRAM使用量在超时时间内未恢复" 秒数=5.868642664 模型=/root/.ollama/models/blobs/sha256-01bf5e0739037fb9f63fd3be28135437f89cc1ea27e263f1cd2308ef1c57dd38

相关问题