ollama 每个模型的并发性

dnph8jn4 于 2个月前发布在其他

关注(0)|答案(2)|浏览(18)

我喜欢新的并发功能。我在想是否可以添加一个新的Modelfile参数，以便在每个模型的基础上控制并行请求。如果设置了这个参数，它将覆盖OLLAMA_NUM_PARALLEL。这个想法的主要用途是允许像嵌入模型这样的小模型一次处理许多快速请求，而耗时较长的大模型一次只能处理较少的请求。这将使较大的模型能够更多地加载到GPU中，而嵌入模型可以更快地工作。
当使用OpenWebUI一次性处理大量文档(约45个)时，嵌入创建的速度要快得多(测试中为20个并行请求)。然而，这种高并行性迫使生成文本的LLM模型主要加载到CPU中，因为它还期望同时处理20个并行请求(实际上它只能处理一个)。

ollama

来源：https://github.com/ollama/ollama/issues/5693