vllm [新模型]:LLaVA-NeXT-视频支持

cwdobuhd  于 3个月前  发布在  其他
关注(0)|答案(4)|浏览(38)

要考虑的模型

llava-next-video项目已经发布,测试结果相当不错。是否有支持这个项目的计划?
https://github.com/LLaVA-VL/LLaVA-NeXT/blob/inference/docs/LLaVA-NeXT-Video.md
目前,Hugging Face不支持这个模型。

已经支持的最近的模型vllm

  • 无响应*

支持您想要的模型的困难是什么?

  • 无响应*
mgdq6dx1

mgdq6dx11#

你好,@AmazDeng!看起来这个模型已经在transformers上支持了。然而,多图像每个提示(这实际上是如何进行视频提示的)目前在vLLM中不受支持,但这肯定是我们路线图上的首要任务之一!

yjghlzjz

yjghlzjz2#

Transformers
是的,目前最新的Transformers版本已经支持llava-next-video模型。但是,推理速度非常慢。希望你们能尽快支持这个模型。
此外,我还有一个问题。为什么VLLM框架到目前为止还不支持直接输入inputs_emb呢?如果你们知道原因,能否请解释一下?

ajsxfq5m

ajsxfq5m3#

为什么到目前为止,VLLM框架还不支持直接输入inputs_emb?如果您知道原因,能否请您解释一下?
我认为这是我们应该支持的事情(确实存在这个问题#416)。这将是另一个API更改,所以我们需要确保一切都兼容。
至少作为第一步,我们确实计划支持图像嵌入作为视觉语言模型的输入(而不是PIL.Image)。这将是我们Q3路线图的一部分。

wqsoz72f

wqsoz72f4#

你好,@AmazDeng!看起来这个模型已经在transformers上支持了。然而,多图像每个提示(这实际上是如何进行视频提示的)目前在vLLM中不受支持,但这绝对是我们路线图上的首要任务之一!
我正在尝试实现Llava-Next-Video的支持。#6571

相关问题