BERTopic 主题模型在长文档上的应用

a5g8bdjr 于 2个月前发布在其他

关注(0)|答案(8)|浏览(36)

我希望使用BERTopic从较长的文档中提取主题：>10个文档，每个包含3-20页的文本。对于这样的用例，是否有任何特殊的方法、提示或文档可以指导如何使用BERTopic?
感谢您提供的优秀软件包！

BERTopic

来源：https://github.com/MaartenGr/BERTopic/issues/1525

8条答案

按热度按时间

wz1wpwve1#

我建议在将文档发送给BERTopic之前，先将其转换为句子或段落。由于这样的大文档很可能包含多个主题，将其拆分肯定会有所帮助。

赞(0）回复(0）举报 2个月前

sauutmhj2#

假设我们想要从整个文档中提取主题。因此，我们执行以下步骤：

将文档拆分为单独的段落
独立地为每个段落提取主题
以某种方式结合跨段落的主题，以获得文档级别的主题。
我对如何最好地执行第3步感兴趣。我想如果我们采用这种方法，最终会得到段落级别的主题权重，但不清楚如何将这些段落级别的结果组合成整体文档级别，即文档中最常见的主题是什么？我相信我可以想出一个方法，但想了解一下这是否是解决这个问题(可能相当常见的)的推荐方法，或者您能指出任何例子吗？

赞(0）回复(0）举报 2个月前

wvmv3b1j3#

你可以根据文本的长度对分布进行汇总。主题分布就是将被分类为主题的文本所占的百分比。

赞(0）回复(0）举报 2个月前

knpiaxh14#

MaartenGr: 有没有这个聚合步骤的代码示例？

赞(0）回复(0）举报 2个月前

44u64gxh5#

@clstaudt There isn't but it should be relatively straightforward. You could save the results in a dataframe which would have sentences with their assigned topics and the ID of their document. Then, simply count how often a topic appears in each document based on the collection of sentences. Other than that, you could look at using .approximate_distribution

赞(0）回复(0）举报 2个月前

sq1bmfud6#

Take a look at both of these. It helped me a ton https://medium.com/@armandj.olivares/using-bert-for-classifying-documents-with-long-texts-5c3e7b04573d
https://arxiv.org/abs/1910.10781

赞(0）回复(0）举报 2个月前

alen0pnh7#

我对这个很感兴趣。但我有一个问题：在我看来，另一个好的方法是