你好,
我对此非常感兴趣,想利用它来探索我的语料库。我不确定这是否是代码本身固有的功能,但每当我尝试重新运行时,它总是加载不同形式的主题间距离图。这意味着我无法复制它,这是不理想的。我已经附上了我使用的代码。谢谢!
df_clean = df.dropna(subset=['Policy_Content'])
umap = UMAP(n_neighbors=15,
n_components=5,
min_dist=0.0,
metric='cosine',
low_memory=False,
random_state=123)
vectorizer_model = CountVectorizer(stop_words="english", min_df=2, ngram_range=(1, 2))
topic_model = BERTopic(umap_model=umap,vectorizer_model=vectorizer_model, verbose=True)
topics, probs = topic_model.fit_transform(df_clean['Policy_Content'])
[#227](https://github.com/MaartenGr/BERTopic/issues/227) topics in total
topic_model.reduce_topics(df_clean['Policy_Content'], nr_topics=48)
topic_model.visualize_topics()
此致,
Yanith
2条答案
按热度按时间oprakyz71#
这是正确的。
visualize_topics
方法使用UMAP将主题嵌入降维到二维空间,但没有设置随机状态。如果设置了随机状态,那么速度会变慢。你可以通过采用代码here来创建自己的版本。pinkon5k2#
非常感谢你的帮助,Maarten。我真的很感激!