BERTopic 潜在的数据流程短缺/优化

2nbm6dog  于 2个月前  发布在  其他
关注(0)|答案(1)|浏览(27)

我以为我已经给出了有用的反馈,但我遇到了一个非常有趣的聚类问题,解决方案的影响会直接影响到你的产品。我不能否认你使用的数据分析流程是强大而有效的,所以我不批评这一点。
然而,我遇到了一组高度相似的数据,我唯一能对它们进行聚类并可视化的方法是将它们分成50个维度,然后根据这些聚类对减少的维度进行着色。这产生了一个非常同心的聚类图,看起来像一只眼睛周围布满了雀斑。
不足之处在于,在BERTopic中很难做到/解决这个问题,但我提出的优化方案是允许用户传入一个可迭代对象,其中包含一系列操作,然后BERTopic遵循自定义的工作流程。
我对BERTopic的一个用例是创建成千上万篇新闻文章的摘要。为了做到这一点,我需要将我的数据通过BERTopic三次,使用不同的设置。传入一个列表作为原函数,或者一个字典,其中键=process,值=(具有kwargs的process或None的字典),可以让用户指定工作流程,这样BERTopic只需要调用一次。
但是就目前而言,这个特定的数据集无法在较低的维度内成功聚类,因为它过于球形/自相似。我不认为这在新闻主题领域中是不常见的,在那里某些事情主要在一个光线下或针对有限的受众进行讨论。
PS. 你可以用回复关闭这个问题,一旦你读过它就没有意义了。

vfh0ocws

vfh0ocws1#

感谢您的反馈。我不确定我是否理解正确。您能创建一个非常简短的自定义工作流程示例(伪代码)吗?

相关问题