描述
我正在使用的模型是kosmos-2:你会更新GRIT构建过程的代码吗?我想在App UI场景中微调kosmos-2,但是对于GRIT构建的细节还不够清楚。例如,“从检测器获取名词短语和区域”和“将输入图像和名词短语输入glip以获得bboxes”这两个步骤看起来是一样的吗?感谢你的出色工作!
js4nwp541#
soat7uwm2#
哦,抱歉!我犯了一个错误。另一个问题:生成grit的过程是严格的吗?在特定的场景中,GLIP可能无法识别所有对象。在这种情况下,是否可以手动为finetuning生成对象bbox、captions和nuon-chunks?
bqujaahr3#
是的,手动注解会很有帮助。
tjvv9vkg4#
你好!我也对GRIT数据集的构建很好奇。在论文中提到,为了减少潜在的噪声,我们消除了在图像中难以识别的一些抽象名词短语,如“时间”、“爱”和“自由”。那么,这些抽象名词短语是通过人工删除还是使用spacy库来实现的呢?非常感谢!
4条答案
按热度按时间js4nwp541#
soat7uwm2#
哦,抱歉!我犯了一个错误。另一个问题:生成grit的过程是严格的吗?在特定的场景中,GLIP可能无法识别所有对象。在这种情况下,是否可以手动为finetuning生成对象bbox、captions和nuon-chunks?
bqujaahr3#
是的,手动注解会很有帮助。
tjvv9vkg4#
你好!我也对GRIT数据集的构建很好奇。
在论文中提到,
为了减少潜在的噪声,我们消除了在图像中难以识别的一些抽象名词短语,如“时间”、“爱”和“自由”。
那么,这些抽象名词短语是通过人工删除还是使用spacy库来实现的呢?
非常感谢!