嘿,非常感谢你制作这个库!超级棒。
我在这里看到了很多关于这个问题的请求,但没有找到一种简单直接的方法来通过get_topic_info()指定它,因为它包含了很多我需要的信息。我希望那里有一个参数,就像get_topic_info(number_of_representative_documents=3)那样,我可以修改它。
我不确定_extract_representative_docs
在我的情况下是否会起作用,因为我正在使用umap、hdbscan和gpt作为主题标签,没有tfidf或其他任何东西,这似乎是必需的参数。
3条答案
按热度按时间pdtvr36n1#
文档本身并未保存在BERTopic中,这部分是为了降低内存需求,因此无法运行类似
.get_topic_info(numberof_representative_documents=3)
的操作。由于c-TF-IDF是默认流程的一部分,所以._extract_representative_docs
应该可以正常工作。klsxnrf12#
所以
._extract_representative_docs
应该可以工作。@MaartenGr 我在BERTopic文档中找不到一个例子。你能提供一个例子吗?
kulphzqa3#
我认为有一个很好的例子here。也许可以添加一个额外的功能,重新计算代表性文档,因为这个问题似乎经常出现。