我喜欢新的并发功能。我在想是否可以添加一个新的Modelfile参数,以便在每个模型的基础上控制并行请求。如果设置了这个参数,它将覆盖OLLAMA_NUM_PARALLEL
。这个想法的主要用途是允许像嵌入模型这样的小模型一次处理许多快速请求,而耗时较长的大模型一次只能处理较少的请求。这将使较大的模型能够更多地加载到GPU中,而嵌入模型可以更快地工作。
当使用OpenWebUI一次性处理大量文档(约45个)时,嵌入创建的速度要快得多(测试中为20个并行请求)。然而,这种高并行性迫使生成文本的LLM模型主要加载到CPU中,因为它还期望同时处理20个并行请求(实际上它只能处理一个)。
2条答案
按热度按时间rwqw0loc1#
根据对代码的快速浏览,它可能陷入了sched.go下的
processPending
,如果存在的话,只需将numParallel
设置为Modelfile的值?piah890a2#
#5657 也相关。