vllm [新模型]:LLaVA-NeXT-视频支持

cwdobuhd 于 6个月前发布在其他

关注(0)|答案(4)|浏览(58)

要考虑的模型

llava-next-video项目已经发布，测试结果相当不错。是否有支持这个项目的计划？
https://github.com/LLaVA-VL/LLaVA-NeXT/blob/inference/docs/LLaVA-NeXT-Video.md
目前，Hugging Face不支持这个模型。

已经支持的最近的模型vllm

无响应*

支持您想要的模型的困难是什么？

无响应*

vllm

来源：https://github.com/vllm-project/vllm/issues/5124

4条答案

按热度按时间

mgdq6dx11#

你好，@AmazDeng!看起来这个模型已经在transformers上支持了。然而，多图像每个提示(这实际上是如何进行视频提示的)目前在vLLM中不受支持，但这肯定是我们路线图上的首要任务之一！

赞(0）回复(0）举报 6个月前

yjghlzjz2#

Transformers
是的，目前最新的Transformers版本已经支持llava-next-video模型。但是，推理速度非常慢。希望你们能尽快支持这个模型。
此外，我还有一个问题。为什么VLLM框架到目前为止还不支持直接输入inputs_emb呢？如果你们知道原因，能否请解释一下？

赞(0）回复(0）举报 6个月前

ajsxfq5m3#

为什么到目前为止，VLLM框架还不支持直接输入inputs_emb?如果您知道原因，能否请您解释一下？
我认为这是我们应该支持的事情(确实存在这个问题#416)。这将是另一个API更改，所以我们需要确保一切都兼容。
至少作为第一步，我们确实计划支持图像嵌入作为视觉语言模型的输入(而不是PIL.Image)。这将是我们Q3路线图的一部分。

赞(0）回复(0）举报 6个月前

wqsoz72f4#

你好，@AmazDeng!看起来这个模型已经在transformers上支持了。然而，多图像每个提示(这实际上是如何进行视频提示的)目前在vLLM中不受支持，但这绝对是我们路线图上的首要任务之一！
我正在尝试实现Llava-Next-Video的支持。#6571

赞(0）回复(0）举报 6个月前

我来回答

vllm [新模型]:LLaVA-NeXT-视频支持

要考虑的模型

已经支持的最近的模型vllm

支持您想要的模型的困难是什么？

4条答案

相关问题

热门标签

最新问答