BERTopic 如何通过get_topic_info()获取每个主题超过3个代表性文档?

8qgya5xd  于 23天前  发布在  其他
关注(0)|答案(3)|浏览(22)

嘿,非常感谢你制作这个库!超级棒。
我在这里看到了很多关于这个问题的请求,但没有找到一种简单直接的方法来通过get_topic_info()指定它,因为它包含了很多我需要的信息。我希望那里有一个参数,就像get_topic_info(number_of_representative_documents=3)那样,我可以修改它。
我不确定_extract_representative_docs在我的情况下是否会起作用,因为我正在使用umap、hdbscan和gpt作为主题标签,没有tfidf或其他任何东西,这似乎是必需的参数。

pdtvr36n

pdtvr36n1#

文档本身并未保存在BERTopic中,这部分是为了降低内存需求,因此无法运行类似.get_topic_info(numberof_representative_documents=3)的操作。由于c-TF-IDF是默认流程的一部分,所以._extract_representative_docs应该可以正常工作。

klsxnrf1

klsxnrf12#

所以 ._extract_representative_docs 应该可以工作。
@MaartenGr 我在BERTopic文档中找不到一个例子。你能提供一个例子吗?

kulphzqa

kulphzqa3#

我认为有一个很好的例子here。也许可以添加一个额外的功能,重新计算代表性文档,因为这个问题似乎经常出现。

相关问题