BERTopic Normalizing Topic Frequency Based on the Number of Documents

nhjlsmyf  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(39)

你好,

我们的应用程序中每天的文档数量相似。我们使用BERTopic创建了一个“随时间变化的主题”图表。当我们在上个月的前半段创建模型和绘制图表时,上个月的主题频率与前几个月相比显著下降。等到月末再创建模型会得到一个更合理的图表。

你建议通过将主题频率除以相应月份的文档数量来进行归一化吗?你的见解将非常有价值。

pod7payv

pod7payv1#

是的,这肯定会有助于解释结果频率。碰巧的是,.visualize_topics_over_time中有normalize_frequency参数可以做到这一点。

相关问题