BERTopic Prob returned by fit_transform

7jmck4yq  于 23天前  发布在  其他
关注(0)|答案(5)|浏览(16)

我运行了fit_transform()函数,但返回的数组prob并没有加起来等于1。对于分配给非-1簇的数据点,我假设prob应该加起来等于1。我检查了源代码,似乎概率计算来自于hdbscan包。如果prob表示数据属于簇的概率,那么总概率应该等于1。如果不是这样,你能解释一下这些值代表什么吗?在我的案例中,prob的大部分值小于0.5。

oewdyzsn

oewdyzsn1#

这是正确的。所有概率都表示非异常主题。这意味着异常主题的概率是1减去所有其他概率的总和。

nkcskrwz

nkcskrwz2#

这是正确的。所有概率都表示非离群主题。这意味着离群主题的概率是1减去所有其他概率的总和。
感谢您的回复。在数据点被分配到一个非常低概率的非-1簇(例如,0.2)的情况下,为什么不将其标记为离群值?根据hdbscan关于离群值检测的文档,这是属于簇内离群值的情况吗?

9ceoxa92

9ceoxa923#

这确实可能是情况。此外,如果0.2是数十个甚至数百个主题中的最高值,它仍然是一个相对较高的可能性。

csbfibhn

csbfibhn4#

这确实可能是情况。此外,如果0.2是数十个甚至数百个主题中的最高值,它仍然是一个相对较高的概率。
在我的情况下,只有7个主题,所有概率加起来小于<.4。但这种低概率示例在主题中的部分相对较小,尽管不是可以忽略的微小。

a5g8bdjr

a5g8bdjr5#

问题是,使用HDBSCAN生成的概率实际上并不是HDBSCAN用于将文档分配给聚类的概率。它仅仅是在拟合聚类模型后概率的近似值。因此,它们不会完全代表主题分配。

相关问题