ollama 在NUMA配置中不使用所有线程(服务器主板2、4、6多插槽CPU)

hjzp0vay  于 2个月前  发布在  其他
关注(0)|答案(2)|浏览(16)

这是一个非常古老的问题,早在21世纪初的微软就关注到了setThreadAffinity,默认情况下它并没有覆盖系统内的所有逻辑处理器。这个问题在20年后的Windows 11和更多的Windows Server中得到了修复,但线程计数很可能是错误地计算出来的。我不懂Golang,但如果它是在C/C++中,我应该能够提供帮助。我已经在这里之前解决了这个问题:
ggerganov/llama.cpp#5524
x64dbg/x64dbg#3272
giampaolo/psutil#771
GermanAizek/llvm-project@d1fa25f

ssgvzors

ssgvzors1#

ggerganov/llama.cpp#5524
Ollama使用llama.cpp作为后端。如果llama.cpp推送了一个修复该问题的补丁,Ollama应该在下一个版本中自动使用它。

7vhp5slm

7vhp5slm2#

@GermanAizek skimming through the llama.cpp commit log, I didn't notice a commit from you fixing this, and it looks like the issue was closed due to inactivity. As @remy415 points out, this logic in ollama is based on the llama.cpp C++ code, so if you contribute a fix to llama.cpp, we'll pick it up automatically next time we bump our dependency.

相关问题