llama.cpp Bug: b3188破坏了多个GPU的行拆分模式

rur96b6h  于 2个月前  发布在  其他
关注(0)|答案(5)|浏览(25)

发生了什么?
自从提交b3188以来,llama-cli在具有CUDA和行Tensor拆分的多GPU系统上产生不一致的输出。
图层Tensor拆分运行正常,但实际上几乎慢了两倍。
GPU是3x Nvidia Tesla + 3090
所有未来的提交似乎都受到了影响。

名称和版本

llama-cli版本b3188,基于Debian 12构建。

您正在看到问题的操作系统是什么?

Linux

相关的日志输出

  • 无响应*
nnvyjq4y

nnvyjq4y1#

你使用的是哪个模型和GPU?使用-b 512 -ub 512时,结果是否正确?使用GGML_CUDA_FORCE_CUBLAS编译时,结果是否正确?

0s0u357o

0s0u357o2#

你好,Johannes,
感谢你的指导。我使用的是特斯拉P40。
使用-b 512 -ub 512时,你得到正确的结果吗?
没有
在使用GGML_CUDA_FORCE_CUBLAS编译时,你得到正确的结果吗?
是的,这个选项可以正常工作。
谢谢。

4jb9z9bj

4jb9z9bj3#

你使用的是哪个模型?

i1icjdpr

i1icjdpr4#

llama3和3.1(在最新版本中,这些版本支持她)都进行了Q8_0量化。

yquaqz18

yquaqz185#

我可以确认这个观察结果。Meta-Llama-3.1-70B-Instruct-IQ2_M在没有使用"row_split"时运行正常,但在使用"row_split"时只会产生乱码(在我的情况下,输出只是一个字符串,如"////////////,////,///"等,继续)。
模型来源:https://huggingface.co/lmstudio-community/Meta-Llama-3.1-70B-Instruct-GGUF/tree/main
系统:双RTX 3090设置,Windows,https://github.com/oobabooga/text-generation-webui,v.1.13
设置截图如下。

相关问题