BERTopic 当使用零样本主题时,'减少离群值'不起作用,

oymdgrw7  于 22天前  发布在  其他
关注(0)|答案(1)|浏览(22)

你好,Maarten - 首先,非常感谢你提供的精彩的图书馆和持续更新!只是想指出在使用零样本主题时,离群主题ID会根据模型接受的零样本主题数量从-1变为正整数。这会导致“减少离群值”功能出现问题,该功能使用主题ID == -1来查找离群值。请查看附上的屏幕截图。在这种情况下,我的离群值的主题ID为'4'而不是'-1',因此减少离群值功能无法识别它们。谢谢!

这是减少离群值功能的代码片段:

通过找到最相似的主题嵌入来减少离群值

elif strategy.lower() == "embeddings":
        if self.embedding_model is None and embeddings is None:
            raise ValueError("To use this strategy, you will need to pass a model to `embedding_model`"
                             "when instantiating BERTopic.")
        outlier_ids = [index for index, topic in enumerate(topics) if topic == -1]
nc1teljy

nc1teljy1#

感谢您分享这个!是的,这是一个问题。起初,我选择了这样的顺序,以便先显示零样本主题,因为这些通常是用户最感兴趣的。然而,可能更好的做法是改变顺序,将零样本主题放在最后,以防止这个问题。
如果您,或者任何其他人想要尝试解决这个问题,我会非常感激!我会确保将其列入待办事项的长列表中,但这需要一些时间。

相关问题