问题是什么?
在v0.1.38版本之前,我的设置有9个token/s,但从v0.1.39到实际的v0.1.48和v0.2版本,它将性能降低到了0.12个token/s。
我的设置:
- Intel(R) Core(TM) i5-9600T CPU
- 64GB RAM DDR4 2666MHz Dual Channel
- Linux Proxmox 8.1.10
- Phi3 3B型号
v0.1.39
v0.1.38
操作系统
Linux,Docker
GPU
其他
CPU
英特尔
Ollama版本
0.1.48
2条答案
按热度按时间eufgjt7s1#
请分享您的服务器日志,以及在proxmox虚拟机内的
cat /proc/cpuinfo | grep ^flags | tail -1
的输出。最近proxmox是否更新/更改以阻止向您的虚拟机暴露的矢量扩展?您描述的减速听起来像是在没有任何矢量扩展的情况下回退到“cpu”运行器。sqougxex2#
这是关于我的设置的更新。
我将Proxmox更新到了8.2.4版本。
这里还有LXC配置选项:
以及LXC配置资源
此外,在我的上一条消息之后,我还更改了一些Docker环境配置,如下所示。
OLLAMA_FLASH_ATTENTION = 0
OLLAMA_KEEP_ALIVE = 2h
OLLAMA_MAX_LOADED_MODELS = 1
OLLAMA_NUM_PARALLEL = 1
非常重要的是要知道,慢性能发生在每个模型中,不仅仅是phi3,但我选择它是因为如果我选择任何其他更大的模型,如llama3 8B,我应该分配更多的时间来获取测试结果,而这简直是荒谬的,从v0.1.39版本开始,我花了40到60分钟才得到回复。
Ollama服务器运行在一个LXC容器中,而不是一个虚拟机,这里是cpuinfo:
# cat /proc/cpuinfo | grep ^flags | tail -1
flags : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf pni pclmulqdq dtes64 monitor ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr pdcm pcid sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm abm 3dnowprefetch cpuid_fault epb invpcid_single pti ssbd ibrs ibpb stibp tpr_shadow flexpriority ept vpid ept_ad fsgsbase tsc_adjust bmi1 hle avx2 smep bmi2 erms invpcid rtm mpx rdseed adx smap clflushopt intel_pt xsaveopt xsavec xgetbv1 xsaves dtherm ida arat pln pts hwp hwp_notify hwp_act_window hwp_epp vnmi md_clear flush_l1d
为了理解日志,我将使用Open WebUI v0.3.7和phi3:instruct从ollama库下载的4B模型进行相同的提示。
提示:
Introduce yourself
Ollama版本:
0.1.38
捕获:
日志:
# docker logs -f ollama
提示:
Introduce yourself
Ollama版本:
0.1.39
捕获:
日志:
# docker logs -f ollama
提示:
Introduce yourself
Ollama版本:
0.2.8
捕获:
日志:
# docker logs -f ollama
非常感谢帮助,这是一个很棒的项目。