BERTopic Consensus Clustering

llycmphe  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(32)

在使用任何聚类方法进行生产时,共识聚类是一个重要方面。我不希望我的用户每次部署管道时都面临一组新的聚类。
你建议固定UMAP的随机种子以稳定聚类。但在实践中,我们如何信任一个随机选择的随机种子,而使用另一个随机种子运行时会产生一组新的聚类,并将文档分配给不同的聚类?这种行为甚至会因为改变其他UMAP、HDBSCAN参数而加剧。
由于没有用于无监督主题建模的替代聚类方法,难道不应该存在一个共识聚类框架,我们可以将总是在一起的文档分配给最终的聚类吗?

vawmfj5a

vawmfj5a1#

但在实践中,我们如何信任一个随机选择的随机种子,而使用另一个随机种子运行时生成一组新的簇,并将文档分配给不同的簇?
这不仅适用于HDBSCAN,而且适用于基本上任何具有random_state参数的算法。即使k-Means也有一个用于初始化簇的参数,这可能会产生不同的结果。
这种行为甚至会因更改其他UMAP、HDBSCAN参数而加剧。
当你还为创建的主题实现评估指标时,情况变得更加困难。聚类只是整个流程的一个组成部分,而不是可以评估的唯一拼图部分。
由于没有替代的无监督主题建模聚类度量方法,难道不应该存在一个共识聚类框架,我们可以将总是在一起的文档分配给最终的簇吗?
是的,也不是。有一些聚类度量可以用于无监督主题建模,例如轮廓分数,它可以给你一个关于簇“质量”的想法。这是一个非常粗略的代理,但它仍然提供了信息。然而,它并没有直接告诉你关于结果簇的质量的信息。例如,主题一致性和多样性没有被考虑。
因此,尽管共识聚类确实可能很有趣,但它只是评估谜题的一部分。例如,即使我们找到了一些大部分时间都在一起的文档,它也不会告诉你它们是否大部分时间都在正确地在一起。仅依赖于共识聚类来稳定化可能会对性能产生负面影响,而不评估模型的其他方面。

相关问题