你的模型定义和训练数据集看起来是正确的。但是,由于你使用的是多标签分类,你需要确保你的训练数据集中的每个样本都包含一个或多个标签。从你提供的预测结果来看,可能是因为某些样本没有包含足够的标签,导致预测效果不佳。
你可以尝试以下方法来改进预测效果:
- 增加训练数据集的大小,以便模型有更多的数据来进行学习。
- 对训练数据进行预处理,例如去除停用词、标点符号等,以减少噪声对模型的影响。
- 调整模型的超参数,例如学习率、批次大小等,以找到更适合你的问题的参数组合。
- 如果可能的话,尝试使用其他类型的模型,例如支持向量机(SVM)或随机森林(Random Forest),看看它们是否能提供更好的预测结果。
希望这些建议对你有所帮助!
1条答案
按热度按时间2j4z5cfb1#
@lrocholl 谢谢你提出这个问题。
我相信这个问题源于你提供多个标签的方式。
当你在Ludwig中指定类型为
set
时,当前的期望是每行提供一个由空格分隔的类集合的字符串。所以,它应该看起来像
'Short_Film Documentary'
,而不是['Short Film', 'Documentary']
。尝试这样做,并告诉我是否有效。
这也表明我们可能需要在提供集合的方式上引入一些灵活性,也许我们应该接受除了空格分隔的字符串之外的列表和字符串集合。