unilm 【kosmos-2】GRIT构建的代码

rjee0c15  于 4个月前  发布在  其他
关注(0)|答案(4)|浏览(49)

描述

我正在使用的模型是kosmos-2:你会更新GRIT构建过程的代码吗?我想在App UI场景中微调kosmos-2,但是对于GRIT构建的细节还不够清楚。例如,“从检测器获取名词短语和区域”和“将输入图像和名词短语输入glip以获得bboxes”这两个步骤看起来是一样的吗?感谢你的出色工作!

soat7uwm

soat7uwm2#

哦,抱歉!我犯了一个错误。另一个问题:生成grit的过程是严格的吗?在特定的场景中,GLIP可能无法识别所有对象。在这种情况下,是否可以手动为finetuning生成对象bbox、captions和nuon-chunks?

bqujaahr

bqujaahr3#

是的,手动注解会很有帮助。

tjvv9vkg

tjvv9vkg4#

你好!我也对GRIT数据集的构建很好奇。
在论文中提到,
为了减少潜在的噪声,我们消除了在图像中难以识别的一些抽象名词短语,如“时间”、“爱”和“自由”。
那么,这些抽象名词短语是通过人工删除还是使用spacy库来实现的呢?
非常感谢!

相关问题