当我们运行预填充阶段时,vllm会接收多个请求进行预填充。这是否受到max_position_embeddings的限制?我认为它不受这个数字的限制,因为每个序列都有自己的起始索引,我们只需要确保每个序列都小于max_position_embeddings。这是事实吗?
max_position_embeddings
我想运行一个特定模型的推理(在这里放置链接)。我不知道如何将其与vllm集成。
c6ubokkw1#
我们不能像阿尔宾达的阿芙罗狄蒂引擎那样拥有自动绳索升降功能吗?@WoosukKwon
1条答案
按热度按时间c6ubokkw1#
我们不能像阿尔宾达的阿芙罗狄蒂引擎那样拥有自动绳索升降功能吗?
@WoosukKwon