与OLA VA在线演示相比,LLaVA 1.6和Ollama的OCR结果不一致,

ldfqzlk8  于 2个月前  发布在  其他
关注(0)|答案(8)|浏览(25)

你好,我已经在LLaVA repo上发布了这个问题,不确定这个问题是否是Ollama中的实现问题。有什么想法吗?

qpgpyjmq

qpgpyjmq1#

你在使用fp16版本吗?我认为在线演示使用的是模型的未量化版本。

bxfogqkk

bxfogqkk2#

感谢您将问题与Ollama和LLaVA一起发布。在Ollama方面,我的担忧是默认模型使用Mistral,但在更高参数下仅支持的唯一模型使用Vicuna。请参阅Discord以获取更多信息。较低参数的模型支持Vicuna和Mistral。

67up9zun

67up9zun3#

@easp@donbr感谢你的思考。我在不同的硬件设置上测试了vicuna和mistral版本,它们都产生了相同的问题。这可能与Ollama端的不同实现有关,正如here所指出的?

92vpleto

92vpleto4#

是的,Lava1.6将图像分割成多个低分辨率图像进行处理,从而提高了其性能。如果没有这个修改(另一个pr仍在等待中),当前实现将无法达到模型的所有性能。

zhte4eai

zhte4eai5#

这实际上会极大地改善OCR操作(尝试引起@jmorganca的注意:)

rekjcdws

rekjcdws6#

对于错过的更新,我表示歉意。建议我们与llava团队合作,以改进我们的测试场景。我在他们的GitHub上发布了一个相关的讨论项目。

rn0zuynd

rn0zuynd7#

你是否收到了来自@jmorganca的回复?Ollama目前有哪些形式的回归测试用于LLaVA?
我的测试用例是对比LLaVA/OpenAI/Gemini在图像分析方面的能力,以及它们区分狼人和狼人之间的区别的能力。在Ollama上的LLaVA 1.5版本表现一直比其他版本更好,直到1.6版本。

0tdrvxhp

0tdrvxhp8#

是的,Llava1.6将一张图像分割成多个低分辨率图像进行处理,从而提高了其性能。如果没有这个修改(另一个pr仍在等待中),当前实现可能无法达到模型的所有性能。

这个问题是否已经整合了?
我正在运行最新的Ollama 0.1.38,但仍然看到这个问题:haotian-liu/LLaVA#1497 (评论)
谢谢!

相关问题