llava-next-video项目已经发布,测试结果相当不错。是否有支持这个项目的计划?https://github.com/LLaVA-VL/LLaVA-NeXT/blob/inference/docs/LLaVA-NeXT-Video.md目前,Hugging Face不支持这个模型。
https://github.com/LLaVA-VL/LLaVA-NeXT/blob/inference/docs/LLaVA-NeXT-Video.md
mgdq6dx11#
你好,@AmazDeng!看起来这个模型已经在transformers上支持了。然而,多图像每个提示(这实际上是如何进行视频提示的)目前在vLLM中不受支持,但这肯定是我们路线图上的首要任务之一!
transformers
yjghlzjz2#
Transformers是的,目前最新的Transformers版本已经支持llava-next-video模型。但是,推理速度非常慢。希望你们能尽快支持这个模型。此外,我还有一个问题。为什么VLLM框架到目前为止还不支持直接输入inputs_emb呢?如果你们知道原因,能否请解释一下?
ajsxfq5m3#
为什么到目前为止,VLLM框架还不支持直接输入inputs_emb?如果您知道原因,能否请您解释一下?我认为这是我们应该支持的事情(确实存在这个问题#416)。这将是另一个API更改,所以我们需要确保一切都兼容。至少作为第一步,我们确实计划支持图像嵌入作为视觉语言模型的输入(而不是PIL.Image)。这将是我们Q3路线图的一部分。
PIL.Image
wqsoz72f4#
你好,@AmazDeng!看起来这个模型已经在transformers上支持了。然而,多图像每个提示(这实际上是如何进行视频提示的)目前在vLLM中不受支持,但这绝对是我们路线图上的首要任务之一!我正在尝试实现Llava-Next-Video的支持。#6571
4条答案
按热度按时间mgdq6dx11#
你好,@AmazDeng!看起来这个模型已经在
transformers
上支持了。然而,多图像每个提示(这实际上是如何进行视频提示的)目前在vLLM中不受支持,但这肯定是我们路线图上的首要任务之一!yjghlzjz2#
Transformers
是的,目前最新的Transformers版本已经支持llava-next-video模型。但是,推理速度非常慢。希望你们能尽快支持这个模型。
此外,我还有一个问题。为什么VLLM框架到目前为止还不支持直接输入inputs_emb呢?如果你们知道原因,能否请解释一下?
ajsxfq5m3#
为什么到目前为止,VLLM框架还不支持直接输入inputs_emb?如果您知道原因,能否请您解释一下?
我认为这是我们应该支持的事情(确实存在这个问题#416)。这将是另一个API更改,所以我们需要确保一切都兼容。
至少作为第一步,我们确实计划支持图像嵌入作为视觉语言模型的输入(而不是
PIL.Image
)。这将是我们Q3路线图的一部分。wqsoz72f4#
你好,@AmazDeng!看起来这个模型已经在
transformers
上支持了。然而,多图像每个提示(这实际上是如何进行视频提示的)目前在vLLM中不受支持,但这绝对是我们路线图上的首要任务之一!我正在尝试实现Llava-Next-Video的支持。#6571