BERTopic 如何通过get_topic_info()获取每个主题超过3个代表性文档？

8qgya5xd 于 5个月前发布在其他

关注(0)|答案(3)|浏览(82)

嘿，非常感谢你制作这个库！超级棒。
我在这里看到了很多关于这个问题的请求，但没有找到一种简单直接的方法来通过get_topic_info()指定它，因为它包含了很多我需要的信息。我希望那里有一个参数，就像get_topic_info(number_of_representative_documents=3)那样，我可以修改它。
我不确定_extract_representative_docs在我的情况下是否会起作用，因为我正在使用umap、hdbscan和gpt作为主题标签，没有tfidf或其他任何东西，这似乎是必需的参数。

BERTopic

来源：https://github.com/MaartenGr/BERTopic/issues/1767

3条答案

按热度按时间

pdtvr36n1#

文档本身并未保存在BERTopic中，这部分是为了降低内存需求，因此无法运行类似.get_topic_info(numberof_representative_documents=3)的操作。由于c-TF-IDF是默认流程的一部分，所以._extract_representative_docs应该可以正常工作。

赞(0）回复(0）举报 5个月前

klsxnrf12#

所以 ._extract_representative_docs 应该可以工作。
@MaartenGr 我在BERTopic文档中找不到一个例子。你能提供一个例子吗？

赞(0）回复(0）举报 5个月前

kulphzqa3#

我认为有一个很好的例子here。也许可以添加一个额外的功能，重新计算代表性文档，因为这个问题似乎经常出现。

赞(0）回复(0）举报 5个月前