问题:服务器启动过程中出现的问题。
6月11日01:17:54,Venue-vPro ollama[2760]:时间=2024-06-11T01:17:54.332+08:00 level=INFO source=server.go:567 msg="waiting for server to become available" status="ll>
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_vocab: special tokens cache size = 421
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_vocab: token to piece cache size = 1.8703 MB
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_print_meta: format = GGUF V3 (latest)
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_print_meta: arch = qwen2
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_print_meta: vocab type = BPE
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_print_meta: n_vocab = 152064
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_print_meta: n_merges = 151387
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_print_meta: n_ctx_train = 32768
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_print_meta: n_embd = 8192
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_print_meta: n_head = 64
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_print_meta: n_head_kv = 8
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_print_meta: n_layer = 80
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_print_meta: n_rot = 128
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_print_meta: n_embd_head_k = 128
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_print_meta: n_embd_head_v = 128
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_print_meta: n_gqa = 8
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_print_meta: n_embd_k_gqa = 1024
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_print_meta: f_norm_eps = 0.0e+00
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load_print_meta: f_norm_rms_eps = 1.0e-06
6月11日01:17:54,Venue-vPro ollama[2760]: llm_load
这段文本是一段日志,记录了在6月11日01:18:56到01:18:04之间,Venue-vPro ollama服务器的一些状态和信息。具体内容包括:
- 在这段时间内,服务器成功地将80个重复的层加载到了GPU上。
- 服务器的CPU缓冲区大小为389.81 MiB,CUDA0缓冲区大小为13868.58 MiB,CUDA1缓冲区大小为14166.62 MiB。
- 服务器使用GGML_ASSERT检查dmmv.cu文件中的某个条件是否为false,但没有给出具体的错误信息。
- 在等待服务器变为可用的过程中,有多个线程被创建和销毁。
- 服务器使用了libthread_db库进行线程调试。
6月11日 01:18:05 Venue-vPro ollama[2849]: #0 0x00007f4b23780c7f in __GI___wait4 (pid=2849, stat_loc=0x0, options=0, usage=0x0) at ../sysdeps/unix/sysv/linux/wait4.>
6月11日 01:18:05 Venue-vPro ollama[2849]: 27 in ../sysdeps/unix/sysv/linux/wait4.c
6月11日 01:18:05 Venue-vPro ollama[2849]: #1 0x00000000005febbb in ggml_print_backtrace ()
6月11日 01:18:05 Venue-vPro ollama[2849]: #2 0x00000000006b5dbc in ggml_cuda_op_dequantize_mul_mat_vec(ggml_backend_cuda_context&, ggml_tensor const*, ggml_tensor >
6月11日 01:18:05 Venue-vPro ollama[2849]: #3 0x000000000068356a in ggml_cuda_op_mul_mat(ggml_backend_cuda_context&, ggml_tensor const*, ggml_tensor const*, ggml_te>
6月11日 01:18:05 Venue-vPro ollama[2849]: #4 0x00000000006866db in ggml_backend_cuda_graph_compute(ggml_backend*, ggml_cgraph*) ()
6月11日 01:18:05 Venue-vPro ollama[2849]: #5 0x000000000064a42b in ggml_backend_sched_graph_compute_async ()
6月11日 01:18:05 Venue-vPro ollama[2849]: #6 0x000000000055c91f in llama_decode ()
6月11日 01:18:05 Venue-vPro ollama[2849]: #7 0x00000000004ffbe4 in llama_init_from_gpt_params(gpt_params&) ()
6月11日 01:18:
5条答案
按热度按时间nnvyjq4y1#
我可以使用模型qwen7b:16bf,也许你可以尝试一下......
---原始内容--- 发件人:***@***.***> 日期:周二,2024年6月11日 下午2点58分收件人:***@***.***>;抄送:***@***.******@***.***>;主题:回复:[ollama/ollama]运行qwen2:72b-instruct-q2_K时出错:llama runner进程已终止:信号:中止(核心转储)(问题#4964)我对qwen2:7b也遇到了同样的问题——直接回复此电子邮件,查看GitHub上的内容,或取消订阅。你收到这封邮件是因为你创建了这个主题。消息ID:***@***.***>
h9a6wy2h2#
在运行CLI时遇到了相同的错误
ollama版本是0.1.36,
在Ubuntu上运行,配备了NVIDIA GeForce RTX 4060(8GB)的GPU
llama3、codegemma、gemma、phi3、mistral和aya没有问题
y4ekin9u3#
在运行phi3时,在ollama docker上遇到了相同的错误,仅支持CPU。
日志:
disbfnqx4#
同样的问题,你处理了吗?
ocebsuys5#
你好,我遇到了与camembert-large嵌入模型(最新或q8)相同的问题。我使用另一个模型(nomic embed text)没有问题:
我使用的是版本0.1.48
我在Ubuntu上使用2个GPU(A4000)
日志: