BERTopic Running Topics Over Time with just a subset of topics and documents

kqqjbcuj 于 2个月前发布在其他

关注(0)|答案(4)|浏览(40)

我想运行topic_model.topics_over_time()函数，但只针对特定文档和主题的子集。有时候在处理包含许多主题的大型语料库时，对所有文档和主题运行它会变得有些笨拙，尤其是如果我只对特定主题的时间变化感兴趣。目前，这似乎不可能，因为topics_over_time不允许手动选择主题，并在完整列表上运行(具体来说，它引用了“Topic”： self.topics_)。我认为可以通过更改函数来轻松解决这个问题，将topics作为参数，如下所示：

def topics_over_time(self,
                         docs: List[str],
                         timestamps: Union[List[str],
                                           List[int]],
                         topics: List[int] = None,
                         nr_bins: int = None,
                         datetime_format: str = None,
                         evolution_tuning: bool = True,
                         global_tuning: bool = True) -> pd.DataFrame:

然后将documents对象更改为以下内容：

documents = pd.DataFrame({"Document": docs, "Topic": topics, "Timestamps": timestamps})

我已经fork了仓库( https://github.com/yousufabdelfatah/BERTopic ),并已经测试过这个功能，因为我当时是在当地实现的，但我认为我应该将此问题作为反馈提出并寻求可能的合作。这有意义吗？还是我忽略了这可能导致下游问题的潜在问题？

BERTopic

来源：https://github.com/MaartenGr/BERTopic/issues/1599

4条答案

按热度按时间

xesrikrc1#

感谢您的建议！
这里有几个可能会有点麻烦的地方。首先，当你只选择一个主题子集时，计算主题表示的方式是什么。通常，默认的c-TF-IDF表示在有足够多的主题时，更有可能省略高频词，如停用词。通过减少主题数量，它可能会降低主题表示的质量。其次，您是否检查过如果topics缺少一个完整的主题，这是否会抛出一个错误？我不确定，但该函数可能需要所有主题才能使global_tuning参数正常工作。

赞(0）回复(0）举报 2个月前

hiz5n14c2#

感谢您的回复！很有趣，因为主题表示是在每个时间戳计算的，所以限制主题数量可能会导致获得较低质量的主题表示？这是否通过足够的文档得到缓解，或者需要达到某种主题数量阈值？在测试中，仅使用6个主题运行似乎给我提供了与完整模型相当相似的表示，但我不清楚这是否仅仅是数据或文档数量的功能，还是其他具体原因。
对于第二个问题，如果文档和主题不匹配，它似乎会抛出错误，但是如果你将文档和主题进行子集划分，使得所有主题都有相应的文档，反之亦然，那么它似乎可以正常运行而不报错。

赞(0）回复(0）举报 2个月前

ckx4rj1h3#

感谢回复！很有趣，因为主题表示是在每个时间戳计算的，所以限制主题数量可能会导致获得较低质量的主题表示？这是否通过足够的文档得到缓解，或者需要达到某个主题数量的阈值？在测试中，仅使用6个主题运行似乎给我与完整模型相当相似的表示，但我不确定这是否仅仅是数据或文档数量的功能，还是其他原因。

确实可能是这样。当只有几个主题创建时，它们可能有更多的停用词，我们通常希望避免这种情况。这可能会降低开箱即用的主题质量，因为大多数用户希望限制停用词的数量。如果创建更多主题，通常会更好。然而，对于其他表示模型(如KeyBERTInspired、MMR或任何LLMs)来说，这通常不是情况。

对于第二个问题，如果文档和主题不匹配，似乎会出现错误。但是，如果你将文档和主题进行子集划分，使得所有主题都有相应的文档，反之亦然，它似乎可以正常运行而不会出错。

如果选择了正确对齐的子集，但特定主题完全缺失，它是否可以无错误地运行？

赞(0）回复(0）举报 2个月前

vcudknz34#

这确实可能是个问题。当只有少数几个主题被创建时，它们很可能会有更多的停用词，而我们通常希望避免这些停用词。这可能会降低开箱即用的主题质量，因为大多数用户都希望限制停用词的数量。如果创建更多主题，情况会更好。然而，对于其他表示模型(如KeyBERTInspired、MMR或任何LLMs)来说，这通常并不是一个问题。

我想知道在函数中，主题是否可以成为一个参数，它默认使用所有主题，但在像我这样的一些用例中，子集非常有用，你可以指定特定的主题和相应的文档。

如果选择了正确的对齐的子集，但特定主题完全缺失，它是否会运行而不出错？

只有在文档中存在主题的情况下才会抛出错误。但是只要文档和主题都被正确地子集化，似乎就不会出错。所以假设你有10个主题，想要为主题1-5运行这个程序，只要你将与这些主题对应的文档传递给docs参数，一切似乎都会正常运行。然而，如果在子集中存在与主题6对应的文档，但主题6没有在topics参数中指定(反之亦然),那么它将抛出一个错误。

赞(0）回复(0）举报 2个月前

我来回答

BERTopic Running Topics Over Time with just a subset of topics and documents

4条答案

相关问题

热门标签

最新问答