你好,Maarten - 首先,非常感谢你提供的精彩的图书馆和持续更新!只是想指出在使用零样本主题时,离群主题ID会根据模型接受的零样本主题数量从-1变为正整数。这会导致“减少离群值”功能出现问题,该功能使用主题ID == -1来查找离群值。请查看附上的屏幕截图。在这种情况下,我的离群值的主题ID为'4'而不是'-1',因此减少离群值功能无法识别它们。谢谢!
这是减少离群值功能的代码片段:
通过找到最相似的主题嵌入来减少离群值
elif strategy.lower() == "embeddings":
if self.embedding_model is None and embeddings is None:
raise ValueError("To use this strategy, you will need to pass a model to `embedding_model`"
"when instantiating BERTopic.")
outlier_ids = [index for index, topic in enumerate(topics) if topic == -1]
1条答案
按热度按时间nc1teljy1#
感谢您分享这个!是的,这是一个问题。起初,我选择了这样的顺序,以便先显示零样本主题,因为这些通常是用户最感兴趣的。然而,可能更好的做法是改变顺序,将零样本主题放在最后,以防止这个问题。
如果您,或者任何其他人想要尝试解决这个问题,我会非常感激!我会确保将其列入待办事项的长列表中,但这需要一些时间。