BERTopic topics_over_time top terms less than top_n

gijlo24d  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(29)

你好,
我注意到当我调用 topics_over_time 时,它生成的主题包含的代表性术语数量少于 top_n。起初我认为这可能是因为很少有文档分配给这些主题,但我也发现在时间段内有很多文档的主题也会出现这种情况。
有什么方法可以知道是什么原因导致的吗?

1rhkuytd

1rhkuytd1#

代表项的数量在 topics_over_time 中固定,以便在计算 n 个表示(每个时间戳一个)时最小化计算开销。您可以通过更新内部的 topics_over_time 函数来自己更改它。我相信这些值是硬编码的。

相关问题