ollama 404 POST "/api/chat"

r9f1avp5  于 22天前  发布在  其他
关注(0)|答案(8)|浏览(19)

问题:如何解决模型无法运行的问题?

根据提供的日志,问题可能出在以下几个方面:

  1. 服务器在处理请求时出现了错误,导致了404错误。请检查服务器端的代码,确保没有逻辑错误或者资源访问问题。

  2. 服务器在尝试加载模型时遇到了问题。请检查模型文件是否存在,以及模型文件的路径是否正确。同时,确保服务器上已经安装了所有必要的依赖库。

  3. 服务器在运行过程中可能会遇到内存不足的问题。请检查服务器的内存使用情况,如果内存不足,可以考虑增加服务器的内存或者优化代码以减少内存占用。

  4. 服务器在运行过程中可能会遇到超时问题。请检查服务器的性能,确保其能够满足处理请求的需求。如果需要,可以考虑优化代码或者升级硬件。

综上所述,要解决这个问题,需要从多个方面进行排查和优化。首先,检查服务器端的代码,确保没有逻辑错误或者资源访问问题;其次,检查模型文件和依赖库的安装情况;最后,检查服务器的性能和内存使用情况,进行相应的优化。

2024/08/19 10:30:01 | 404 | 990.349μs | ::1 | POST "/api/chat"
2024/08/19 10:31:01 | 404 | 224.61μs | ::1 | POST "/api/chat"
2024/08/19 10:32:01 | 404 | 15.250541ms | ::1 | POST "/api/chat"
2024/08/19 10:32:27 | 200 | 46.654μs | 127.0.0.1 | GET "/api/vers>
2024/08/19 10:33:01 | 404 | 959.34μs | ::1 | POST "/api/chat"
2024/08/19 10:34:02 | 404 | 18.592866ms | ::1 | POST "/api/chat"
2024/08/19 10:35:01 | 404 | 284.394μs | ::1 | POST "/api/chat"

#### OS

Linux

#### GPU

Nvidia

#### CPU

Other

#### Ollama version

0.3.6
8aqjt8rx

8aqjt8rx1#

我认为关键问题是模型无法加载,但可以在本地搜索。

0.560+08:00 level=INFO source=server.go:627 msg="waiting for server to become available" status="llm server not responding"
0.855+08:00 level=INFO source=server.go:627 msg="waiting for server to become available" status="llm server loading model"
9:01 | 404 | 8.989131ms | ::1 | POST "/api/chat"
0:01 | 404 | 191.365μs | ::1 | POST "/api/chat"

uoifb46i

uoifb46i2#

2024年8月19日 14:13:01 | 404 | 414.019μs | 127.0.0.1 | POST "/api/chat"
(base) [root@ecs-lcdsj ~]# OLLAMA_DEBUG=1 ollama serve 2>&1 | tee server.log
2024年8月19日 14:09:56 | level=INFO source=images.go:782 msg="total blobs: 0"
2024年8月19日 14:09:56 | level=INFO source=images.go:790 msg="total unused blobs removed: 0"
2024年8月19日 14:09:56 | level=INFO source=routes.go:1170 msg="Listening on 127.0.0.1:11434 (version 0.3.5)"
2024年8月19日 14:09:56 | level=DEBUG source=payload.go:30 msg="extracting embedded files" dir=/tmp/ollama565513732/runners
time=2024-08-19T14:09:56.520+08:00 level=DEBUG source=payload.go:182 msg=extracting variant=cpu file=build/linux/x86_64/cpu/bin/ollama_llama_server.gz
time=2024-08-19T14:09:56.520+08:00 level=DEBUG source=payload.go:182 msg=extracting variant=cpu_avx file=build/linux/x86_64/cpu_avx/bin/ollama_llama_server.gz
time=2024-08-19T14:09:56.520+08:00 level=DEBUG source=payload.go:182 msg=extracting variant=cpu_avx2 file=build/linux/x86_64/cpu_avx2/bin/ollama_llama_server.gz
time=2024-08-19T14:09:56.520+08:00 level=DEBUG source=payload.go:182 msg=extracting variant=cuda_v11 file=build/linux/x86_64/cuda_v11/bin/libcublas.so.11.gz
time=2024-08-19T14:09:56.520+08:00 level=DEBUG source=payload.go:182 msg=extracting variant=cuda_v11 file=build/linux/x86_64/cuda_v11/bin/libcublasLt.so.11.gz
time=2024-08-19T14:09:56.520+08:00 level=DEBUG source=payload.go:182 msg=extracting variant=cuda_v11 file=build/linux/x86_64/cuda_v11/bin/libcudart.so.11.0.gz
time=2024-08-19T14:09:56.520+08:00 level=DEBUG source=payload.go:182 msg=extracting variant=cuda_v11 file=build/linux/x86_64/cuda_v11/bin/ollama_llama_server.gz
time=2024-08-19T14:09:56.520+08:00 level=DEBUG source=payload.go:182 msg=extracting variant=rocm_v60102 file=build/linux/x86_64/rocm_v60102/bin/deps.txt.gz
time=2024-08-19T14:09:56.523+08:00 level=DEBUG source=payload.go:71 msg="availableServers : found" file=/tmp/ollama565513732/runners/cpu/ollama_llama_server
time=2024-08-19T14:09:56.523+08:00 level=DEBUG source=payload.go:71 msg="availableServers : found" file=/tmp/ollama565513732/runners/cpu_avx/ollama_llama_server
time=2024-08-19T14:09:56.523+08:00 level=DEBUG source=payload.go:71 msg="availableServers : found" file=/tmp/ollama565513732/runners/cpu_avx2/ollama_llama_server
time=2024-08-19T14:09:56.523+08:00 level=DEBUG source=payload.go:71 msg="availableServers : found" file=/tmp/ollama565513732/runners/cuda_v11/ollama_llama_server
time=2024-08-19T14:09:56.523+08:00 level=DEBUG source=payload.go:71 msg="availableServers : found" file=/tmp/ollama565513732/runners/rocm_v601

library /usr/lib/libcuda.so.550.90.07 load err: /usr/lib/libcuda.so.550.90.07: wrong ELF class: ELFCLASS32
 time=2024-08-19T14:10:01.188+08:00 level=DEBUG source=gpu.go:566 msg="skipping 32bit library" library=/usr/lib/libcuda.so.550.90.07
 CUDA driver version: 12.4
 time=2024-08-19T14:10:01.548+08:00 level=DEBUG source=gpu.go:123 msg="detected GPUs" count=4 library=/usr/lib64/libcuda.so.550.90.07
 [GPU-220df675-5d27-88e7-0958-f62f77a1e82a] CUDA totalMem 40326 mb
 [GPU-220df675-5d27-88e7-0958-f62f77a1e82a] CUDA freeMem 38836 mb
 [GPU-220df675-5d27-88e7-0958-f62f77a1e82a] Compute Capability 8.0
 [GPU-0509be8c-c34b-4e94-ccc8-3d06d7a287ff] CUDA totalMem 40326 mb
 [GPU-0509be8c-c34b-4e94-ccc8-3d06d7a287ff] CUDA freeMem 39903 mb
 [GPU-0509be8c-c34b-4e94-ccc8-3d06d7a287ff] Compute Capability 8.0
 [GPU-238d50b9-e2e6-8bf5-cf29-8a98895db3ac] CUDA totalMem 40326 mb
 [GPU-238d50b9-e2e6-8bf5-cf29-8a98895db3ac] CUDA freeMem 39903 mb
 [GPU-238d50b9-e2e6-8bf5-cf29-8a98895db3ac] Compute Capability 8.0
 [GPU-7aabff4a-5756-eee1-b793-880410188e85] CUDA totalMem 40326 mb
 [GPU-7aabff4a-5756-eee1-b793-880410188e85] CUDA freeMem 39903 mb
 [GPU-7aabff4a-5756-eee1-b793-880410188e85] Compute Capability 8.0
 time=2024-08-19T14:10:02.846+08:00 level=INFO source=amd_linux.go:371 msg="amdgpu driver not detected /sys/module/amdgpu"
 releasing cuda driver library
 time=2024-08-19T14:10:02.846+08:00 level=INFO source=types.go:105 msg="inference compute" id=GPU-220df675-5d27-88e7-0958-f62f77a1e82a library=cuda compute=8.0 driver=12.4 name="NVIDIA A100-PCIE-40GB" total="39.4 GiB" available="37.9 GiB"
 time=2024-08-19T14:10:02.846+08:00 level=INFO source=types.go:105 msg="inference compute" id=GPU-0509be8c-c34b-4e94-ccc8-3d06d7a287ff library=cuda compute=8.0 driver=12.4 name="NVIDIA A100-PCIE-40GB" total="39.4 GiB" available="39.0 GiB"
 time=2024-08-19T14:10:02.846+08:00 level=INFO source=types.go:105 msg="inference compute" id=GPU-238d50b9-e2e6-8bf5-cf29-8a98895db3ac library=cuda compute=8.0 driver=12.4 name="NVIDIA A100-PCIE-40GB" total="39.4 GiB" available="39.0 GiB"
 time=2024-08-19T14:10:02.846+08:00 level=INFO source=types.go:105 msg="inference compute" id=GPU-7aabff4a-5756-eee1-b793-880410188e85 library=cuda compute=8.0 driver=12.4 name="NVIDIA A100-PCIE-40GB" total="39.4 GiB" available="39.0 GiB"
 [GIN] 2024/08/19 - 14:10:02 | 404 | 2.731353ms | 127.0.
y1aodyip

y1aodyip3#

客户端收到的404响应正文中包含什么内容?

hts6caw3

hts6caw34#

客户端收到的404响应正文中有什么内容?

嗨,你是指这个吗?我使用openwebui连接ollama,但没有得到响应。但有时候它运行正常,有时在切换模型时会发生这种情况。我找不到发生这种情况的规律。谢谢你的回复。

kzmpq1sx

kzmpq1sx5#

最可能的问题是发送给ollama的请求模型名称不正确:

$ curl -s -D - localhost:11434/api/chat -d '{"model":"unknown"}'
HTTP/1.1 404 Not Found
Content-Type: application/json; charset=utf-8
Date: Mon, 19 Aug 2024 11:15:04 GMT
Content-Length: 61

{"error":"model \"unknown\" not found, try pulling it first"}

如果您能获取到ollama发送的404响应内容,它可能会提供关于请求失败的原因的信息,无论是错误的模型名称还是其他原因。
HTTP跟踪器扩展无法帮助,因为它查看的是浏览器和open-webui端口之间的流量,而不是open-webui和ollama之间的流量。
运行此命令并使用open-webui,当发生错误时,您应该能够在数据包跟踪中找到错误信息:

sudo tcpdump -X -i lo port 11434
kse8i1jr

kse8i1jr6#

这个问题可能是由于模型名称不正确导致的。当你在终端执行这个命令时,出现了404错误并卡住,可能是因为服务器找不到对应的模型。你可以尝试重新拉取模型并再次执行命令。

`tcpdump -X -i lo port 11434`
`19:41:01.470424 IP6 localhost.11434 > localhost.spremotetablet: Flags [P.], seq 1:194, ack 199, win 512, options [nop,nop,TS val 1269460090 ecr 1269460088], length 193 0x0000: 6002 1aed 00e1 0640 0000 0000 0000 0000` ......@.........
0x0010: 0000 0000 0000 0001 0000 0000 0000 0000 ................
0x0020: 0000 0000 0000 0001 2caa b796 97e3 4236 ........,.....B6
0x0030: 8bb0 bc8e 8018 0200 00e9 0000 0101 080a ................
0x0040: 4baa 6c7a 4baa 6c78 4854 5450 2f31 2e31 K.lzK.lxHTTP/1.1
0x0050: 2034 3034 204e 6f74 2046 6f75 6e64 0d0a .404.Not.Found..
bvn4nwqk

bvn4nwqk7#

我认为您存在多个问题。您追踪的404与ollama run llama3:latest问题不同,因为模型不同。您需要将问题分开并发布服务器日志,以清楚地显示您正在尝试修复的问题。

bnlyeluc

bnlyeluc8#

我认为你遇到了多个问题。你追踪到的404错误与ollama run llama3:latest问题不同,因为模型不同。你需要将问题分开并发布服务器日志,以清楚地显示您正在尝试修复的问题。

今天我停止了openwebui并测试了docker ollama 0.3.5镜像。我在终端中运行了docker exec -it ollama ollama run svjack/qwen1_5_14b,但在另一个终端中捕获到的dump消息仍然显示**"model": "qwen2:72b"**。我不知道为什么。这些模型的名称会不会冲突?例如,如果所有内容都以'qwen'开头,如' qwen2 '、' qwen: 72b '等,这会不会造成问题。

10:57:01.184426 IP6 localhost.52764 > localhost.11434: Flags [P.], seq 1:199, ack 1, win 512, options [nop,nop,TS val 1324419804 ecr 1324419803], length 198
        0x0000:  600b efaa 00e6 0640 0000 0000 0000 0000  `......@........
        0x0010:  0000 0000 0000 0001 0000 0000 0000 0000  ................
        0x0020:  0000 0000 0000 0001 ce1c 2caa ec00 525f  ..........,...R_
        0x0030:  248f 1099 8018 0200 00ee 0000 0101 080a  $...............
        0x0040:  4ef1 0adc 4ef1 0adb 504f 5354 202f 6170  N...N...POST./ap
        0x0050:  692f 6368 6174 2048 5454 502f 312e 310d  i/chat.HTTP/1.1.
        0x0060:  0a48 6f73 743a 206c 6f63 616c 686f 7374  .Host:.localhost
        0x0070:  3a31 3134 3334 0d0a 5573 6572 2d41 6765  :11434..User-Age
        0x0080:  6e74 3a20 6375 726c 2f37 2e37 312e 310d  nt:.curl/7.71.1.
        0x0090:  0a41 6363 6570 743a 202a 2f2a 0d0a 436f  .Accept:.*/*..Co
        0x00a0:  6e74 656e 742d 4c65 6e67 7468 3a20 3431  ntent-Length:.41
        0x00b0:  0d0a 436f 6e74 656e 742d 5479 7065 3a20  ..Content-Type:.
        0x00c0:  6170 706c 6963 6174 696f 6e2f 782d 7777  application/x-ww
        0x00d0:  772d 666f 726d 2d75 726c 656e 636f 6465  w-form-urlencode
        0x00e0:  640d 0a0d 0a7b 2022 6d6f 6465 6c22 3a20  d....{."model":.
        0x00f0:  2271 7765 6e32 3a37 3262 222c 2022 6b65  "qwen2:72b",."ke
        0x0100:  6570 5f61 6c69 7665 223a 202d 317d       ep_alive":.-1}

另外,我想问一下数据包捕获命令是否是实时的?为什么我在终端上执行的查询数据包没有像下面这样被捕获?
非常感谢您的帮助。

相关问题