你好,我意识到这是一个很大的要求,但我正在学习越来越多的推理知识,我也听说VLLM在许多GPU训练中具有更好的性能。OLLAMA是一个很棒的用户体验,我喜欢它与llama.cpp的紧密集成。但是,如果能开始探索如何使用OLLAMA模型与vllm一起使用,那就更好了。
j9per5c41#
这将是一个相当有趣的挑战,vllm原生支持并发,因此某些事情肯定会是一个加分项。
zfciruhq2#
我觉得Ollama需要证明它可以与更多的gguf模型一起工作。它提出的Modelfile方法定义了如何推理模型,这实际上是有用的。
2条答案
按热度按时间j9per5c41#
这将是一个相当有趣的挑战,vllm原生支持并发,因此某些事情肯定会是一个加分项。
zfciruhq2#
我觉得Ollama需要证明它可以与更多的gguf模型一起工作。它提出的Modelfile方法定义了如何推理模型,这实际上是有用的。