我正在处理一个非常小的新闻标题数据集(4012条条目),有148个可能的标签。条目有1到5个标签与之相关。
在这里,我附上每个子主题出现次数分布的图像:Distribution
正如你所看到的,数据是高度不平衡的。我一直在玩OneVsRest,Binary Relevance和ML-KNN,但我意识到,虽然我有一个很高的准确率得分,这可能是由于事实上,特定的标签没有发现在测试数据,因此,虽然它是100%准确的没有检测到标签,我没有其他示例来测试它。
在这种情况下,最佳方法是什么?
我正在处理一个非常小的新闻标题数据集(4012条条目),有148个可能的标签。条目有1到5个标签与之相关。
在这里,我附上每个子主题出现次数分布的图像:Distribution
正如你所看到的,数据是高度不平衡的。我一直在玩OneVsRest,Binary Relevance和ML-KNN,但我意识到,虽然我有一个很高的准确率得分,这可能是由于事实上,特定的标签没有发现在测试数据,因此,虽然它是100%准确的没有检测到标签,我没有其他示例来测试它。
在这种情况下,最佳方法是什么?
1条答案
按热度按时间jyztefdp1#
我建议你使用准确度以外的其他指标来解决多标签问题,例如F1评分或准确度-召回率曲线AUC,例如https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html和https://scikit-learn.org/stable/auto_examples/model_selection/plot_precision_recall.html。
此外,我建议您尽可能平衡目标标签。最简单的方法是删除包含过度表示标签的样本。由于您的数据集非常小,并且在平衡后会更小,我建议您开始创建一个更大的数据集。
如果没有更多的细节,我就不能说更多了。然而,给定一个小的和非常不平衡的数据集,通常很难甚至不可能训练出一个坚实的分类器。