ludwig 如何为具有每张图片多个标题的图像标注格式化模型架构？

of1yzvn4 于 2个月前发布在其他

关注(0)|答案(1)|浏览(33)

你好，

我正在尝试按照这个例子进行图像标注：https://ludwig-ai.github.io/ludwig-docs/examples/#image-captioning
这个例子是为每个图像编写一个单独的标题，模型定义如下：

input_features:
    -
        name: image_path
        type: image
        encoder: stacked_cnn

output_features:
    -
        name: caption
        type: text
        level: word
        decoder: generator
        cell_type: lstm

但是我使用的是Flickr8k数据集，每个图像有5个标题。是否可以使用这样的数据集与Ludwig一起使用，还是我必须剥离其余的标题并只使用一个？

[image 1]    [caption 1]    [caption 2]    [caption 3]    [caption 4]    [caption 5]    
[image 2]    [caption 1]    [caption 2]    [caption 3]    [caption 4]    [caption 5]    
[image 3]    [caption 1]    [caption 2]    [caption 3]    [caption 4]    [caption 5]    
...
...

谢谢。

ludwig

来源：https://github.com/ludwig-ai/ludwig/issues/745