python 小数据集多标签的多标签分类问题

lkaoscv7 于 2023-01-29 发布在 Python

关注(0)|答案(1)|浏览(216)

我正在处理一个非常小的新闻标题数据集（4012条条目），有148个可能的标签。条目有1到5个标签与之相关。
在这里，我附上每个子主题出现次数分布的图像：Distribution
正如你所看到的，数据是高度不平衡的。我一直在玩OneVsRest，Binary Relevance和ML-KNN，但我意识到，虽然我有一个很高的准确率得分，这可能是由于事实上，特定的标签没有发现在测试数据，因此，虽然它是100%准确的没有检测到标签，我没有其他示例来测试它。
在这种情况下，最佳方法是什么？

python

来源：https://stackoverflow.com/questions/75029167/multi-label-classification-problem-with-small-dataset-and-multiple-labels

1条答案

按热度按时间

jyztefdp1#

我建议你使用准确度以外的其他指标来解决多标签问题，例如F1评分或准确度-召回率曲线AUC，例如https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html和https://scikit-learn.org/stable/auto_examples/model_selection/plot_precision_recall.html。
此外，我建议您尽可能平衡目标标签。最简单的方法是删除包含过度表示标签的样本。由于您的数据集非常小，并且在平衡后会更小，我建议您开始创建一个更大的数据集。
如果没有更多的细节，我就不能说更多了。然而，给定一个小的和非常不平衡的数据集，通常很难甚至不可能训练出一个坚实的分类器。

赞(0）回复(0）举报 2023-01-29

我来回答

python 小数据集多标签的多标签分类问题

1条答案

相关问题

热门标签

最新问答