早上好,这是我从以下页面获得的代码:
[https://spacy.io/universe/project/bertopic](https://spacy.io/universe/project/bertopic)
运行后,我得到了以下错误:无法检索未注册的扩展属性'trf_data'。您是否忘记调用set_extension方法了?
如何解决这个错误?
安装所需的库:
!pip install spacy
!pip install bertopic
!pip install scikit-learn
在medium上下载spacy英文模型:
!python -m spacy download en_core_web_md
加载spacy库和BERTopic模型:
import spacy
from bertopic import BERTopic
from sklearn.datasets import fetch_20newsgroups
加载20 Newsgroups数据库中的文档:
docs = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'))['data']
在medium上加载英文spacy模型(排除不必要的组件):
nlp = spacy.load('en_core_web_md', exclude=['tagger', 'parser', 'ner', 'attribute_ruler', 'lemmatizer'])
使用spacy创建BERTopic模型:
topic_model = BERTopic(embedding_model=nlp)
topics, probs = topic_model.fit_transform(docs)
1条答案
按热度按时间a6b3iqyw1#
你目前正在使用哪个版本的BERTopic?另外,你尝试从主分支安装BERTopic了吗?我相信之前有一个修复这个问题的方法。此外,尽管spaCy作为嵌入模型是受支持的,但我通常不会推荐它。建议使用的模型是here。