在探索主题之间的关系(2D可视化,层次结构)时,我们需要将每个主题表示为一个汇总向量(聚类级别的嵌入)。
BERTopic源代码统计topic_embeddings_ (np.ndarray) : The embeddings for each topic. It is calculated by taking the weighted average of word embeddings in a topic based on their c-TF-IDF values.
这似乎意味着BERTopic需要同时具备句子级词嵌入模型和词级嵌入模型。这是这种情况吗?请在源代码中指定在哪里?
1条答案
按热度按时间eqoofvh91#
嗯,这应该更新一下。现在有多种方法来计算主题嵌入。默认情况下,将取一个主题的所有嵌入的平均值来创建主题嵌入。如果这是不可能的,那么它将是词嵌入的加权平均值。这些词嵌入也可以通过简单地给出一个单词并让其为该单词生成嵌入来使用句子级表示法进行计算。你可以分开句子级和词级嵌入,但通常在sentence-transformers中这是不必要的。