BERTopic 合并主题模型

nfs0ujit  于 2个月前  发布在  其他
关注(0)|答案(3)|浏览(31)

你好,
非常感谢这个惊人的包。这是一个问题,而不是一个问题,我希望在这里发布是合适的。
在我的使用场景中,我每天重新训练BERTopic以捕捉不断涌现的新主题。我尝试使用River库进行在线学习方法,但结果明显比一次性使用UMAP和HDBSCAN的训练差很多,所以我现在正在重新训练。自然地,给定一天中出现的主题与昨天的主题有一些相似或等同之处。
我对这个问题有两个疑问。首先,是否有推荐的方法来识别一个主题与之前的主题模型中的某个主题相似(使用c-TF-IDF分布、质心向量等)?其次,在两个主题模型之间识别出主题之间的相似性后,是否有可能合并这些模型以获得一个包含两者的大型主题模型?
谢谢!

js5cn81o

js5cn81o1#

首先,有没有推荐的方法来识别一个主题与之前的主题模型中的某个主题相似(使用c-TF-IDF分布、质心向量等)?
通常,这确实可以通过c-TF-IDF( topic_model.c_tf_idf_ )或嵌入( topic_model.topic_embeddings_ )表示法上的余弦相似度来实现。
其次,在两个主题模型之间识别出主题的相似性后,是否可以将这两个模型合并成一个大的主题模型,包含两者的内容?
是的,如果只关注对生成的主题和文档进行标记的话,这是可能的。例如,假设你有两个主题模型和各自的一些文档。经过训练后,你会识别出匹配的主题和新的主题。每个文档也会被标记为合并和未合并的主题。然后,你可以将这些文档及其分配的主题传递给一个新的模型,使用 manual topic modeling 。这实际上允许你合并两个主题模型。由于有更多的文档需要构建表示,所以它会创建新的表示。

pftdvrlh

pftdvrlh2#

我正在做类似的事情,并且发现BERTopic的结果比River的结果"更好"。也就是说,你们两位能否对"余弦相似度在c-TF-IDF(topic_model.c_tf_idf_)或嵌入(topic_model.topic_embeddings_)表示法中"进行扩展?
提前感谢!

hujrc8aj

hujrc8aj3#

你可以计算文档和主题的c-TF-IDF表示,并用余弦相似度进行比较。这样,你可以快速查看哪些文档属于哪些主题以及它们之间的相似程度。同样的方法也可以应用于嵌入文档和主题。

请注意,在主分支中有一个用于合并主题模型的新功能,详细描述如下:#1516

相关问题