ludwig Multi-label classification

suzh9iv8  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(34)

你的模型定义和训练数据集看起来是正确的。但是,由于你使用的是多标签分类,你需要确保你的训练数据集中的每个样本都包含一个或多个标签。从你提供的预测结果来看,可能是因为某些样本没有包含足够的标签,导致预测效果不佳。

你可以尝试以下方法来改进预测效果:

  1. 增加训练数据集的大小,以便模型有更多的数据来进行学习。
  2. 对训练数据进行预处理,例如去除停用词、标点符号等,以减少噪声对模型的影响。
  3. 调整模型的超参数,例如学习率、批次大小等,以找到更适合你的问题的参数组合。
  4. 如果可能的话,尝试使用其他类型的模型,例如支持向量机(SVM)或随机森林(Random Forest),看看它们是否能提供更好的预测结果。

希望这些建议对你有所帮助!

2j4z5cfb

2j4z5cfb1#

@lrocholl 谢谢你提出这个问题。
我相信这个问题源于你提供多个标签的方式。
当你在Ludwig中指定类型为 set 时,当前的期望是每行提供一个由空格分隔的类集合的字符串。
所以,它应该看起来像 'Short_Film Documentary' ,而不是 ['Short Film', 'Documentary']
尝试这样做,并告诉我是否有效。
这也表明我们可能需要在提供集合的方式上引入一些灵活性,也许我们应该接受除了空格分隔的字符串之外的列表和字符串集合。

相关问题