vllm [用法]:为什么llama2的max_model_len不能大于max_position_embeddings?

jobtbby3  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(53)

当前环境

当我们运行预填充阶段时,vllm会接收多个请求进行预填充。这是否受到max_position_embeddings的限制?
我认为它不受这个数字的限制,因为每个序列都有自己的起始索引,我们只需要确保每个序列都小于max_position_embeddings。这是事实吗?

您希望如何使用vllm

我想运行一个特定模型的推理(在这里放置链接)。我不知道如何将其与vllm集成。

c6ubokkw

c6ubokkw1#

我们不能像阿尔宾达的阿芙罗狄蒂引擎那样拥有自动绳索升降功能吗?
@WoosukKwon

相关问题