vllm [用法]:为什么llama2的max_model_len不能大于max_position_embeddings?

jobtbby3 于 2个月前发布在其他

关注(0)|答案(1)|浏览(53)

当前环境

当我们运行预填充阶段时，vllm会接收多个请求进行预填充。这是否受到max_position_embeddings的限制？
我认为它不受这个数字的限制，因为每个序列都有自己的起始索引，我们只需要确保每个序列都小于max_position_embeddings。这是事实吗？

您希望如何使用vllm

我想运行一个特定模型的推理(在这里放置链接)。我不知道如何将其与vllm集成。

来源：https://github.com/vllm-project/vllm/issues/4346

1条答案

按热度按时间

我们不能像阿尔宾达的阿芙罗狄蒂引擎那样拥有自动绳索升降功能吗？
@WoosukKwon

赞(0）回复(0）举报 2个月前

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 21天前
xxl-job 不能和nacos兼容？
回答(3) 发布于 21天前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 21天前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 21天前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 21天前