BERTopic 潜在的数据流程短缺/优化

2nbm6dog 于 6个月前发布在其他

关注(0)|答案(1)|浏览(48)

我以为我已经给出了有用的反馈，但我遇到了一个非常有趣的聚类问题，解决方案的影响会直接影响到你的产品。我不能否认你使用的数据分析流程是强大而有效的，所以我不批评这一点。
然而，我遇到了一组高度相似的数据，我唯一能对它们进行聚类并可视化的方法是将它们分成50个维度，然后根据这些聚类对减少的维度进行着色。这产生了一个非常同心的聚类图，看起来像一只眼睛周围布满了雀斑。
不足之处在于，在BERTopic中很难做到/解决这个问题，但我提出的优化方案是允许用户传入一个可迭代对象，其中包含一系列操作，然后BERTopic遵循自定义的工作流程。
我对BERTopic的一个用例是创建成千上万篇新闻文章的摘要。为了做到这一点，我需要将我的数据通过BERTopic三次，使用不同的设置。传入一个列表作为原函数，或者一个字典，其中键=process,值=(具有kwargs的process或None的字典),可以让用户指定工作流程，这样BERTopic只需要调用一次。
但是就目前而言，这个特定的数据集无法在较低的维度内成功聚类，因为它过于球形/自相似。我不认为这在新闻主题领域中是不常见的，在那里某些事情主要在一个光线下或针对有限的受众进行讨论。
PS. 你可以用回复关闭这个问题，一旦你读过它就没有意义了。

BERTopic

来源：https://github.com/MaartenGr/BERTopic/issues/1458