发生了什么?自从提交b3188以来,llama-cli在具有CUDA和行Tensor拆分的多GPU系统上产生不一致的输出。图层Tensor拆分运行正常,但实际上几乎慢了两倍。GPU是3x Nvidia Tesla + 3090所有未来的提交似乎都受到了影响。
llama-cli版本b3188,基于Debian 12构建。
Linux
nnvyjq4y1#
你使用的是哪个模型和GPU?使用-b 512 -ub 512时,结果是否正确?使用GGML_CUDA_FORCE_CUBLAS编译时,结果是否正确?
-b 512 -ub 512
GGML_CUDA_FORCE_CUBLAS
0s0u357o2#
你好,Johannes,感谢你的指导。我使用的是特斯拉P40。使用-b 512 -ub 512时,你得到正确的结果吗?没有在使用GGML_CUDA_FORCE_CUBLAS编译时,你得到正确的结果吗?是的,这个选项可以正常工作。谢谢。
4jb9z9bj3#
你使用的是哪个模型?
i1icjdpr4#
llama3和3.1(在最新版本中,这些版本支持她)都进行了Q8_0量化。
yquaqz185#
我可以确认这个观察结果。Meta-Llama-3.1-70B-Instruct-IQ2_M在没有使用"row_split"时运行正常,但在使用"row_split"时只会产生乱码(在我的情况下,输出只是一个字符串,如"////////////,////,///"等,继续)。模型来源:https://huggingface.co/lmstudio-community/Meta-Llama-3.1-70B-Instruct-GGUF/tree/main系统:双RTX 3090设置,Windows,https://github.com/oobabooga/text-generation-webui,v.1.13设置截图如下。
5条答案
按热度按时间nnvyjq4y1#
你使用的是哪个模型和GPU?使用
-b 512 -ub 512
时,结果是否正确?使用GGML_CUDA_FORCE_CUBLAS
编译时,结果是否正确?0s0u357o2#
你好,Johannes,
感谢你的指导。我使用的是特斯拉P40。
使用-b 512 -ub 512时,你得到正确的结果吗?
没有
在使用GGML_CUDA_FORCE_CUBLAS编译时,你得到正确的结果吗?
是的,这个选项可以正常工作。
谢谢。
4jb9z9bj3#
你使用的是哪个模型?
i1icjdpr4#
llama3和3.1(在最新版本中,这些版本支持她)都进行了Q8_0量化。
yquaqz185#
我可以确认这个观察结果。Meta-Llama-3.1-70B-Instruct-IQ2_M在没有使用"row_split"时运行正常,但在使用"row_split"时只会产生乱码(在我的情况下,输出只是一个字符串,如"////////////,////,///"等,继续)。
模型来源:https://huggingface.co/lmstudio-community/Meta-Llama-3.1-70B-Instruct-GGUF/tree/main
系统:双RTX 3090设置,Windows,https://github.com/oobabooga/text-generation-webui,v.1.13
设置截图如下。