BERTopic OpenAI表示: KeyError: 'content'

jgovgodb  于 5个月前  发布在  其他
关注(0)|答案(7)|浏览(61)

当我在大型数据集(40万个文档)上运行主题模型时遇到了KeyError(但在较小的样本上没有问题)。
这是我正在使用的表示模型:
x1a2b1x

zpf6vheq

zpf6vheq1#

我不太确定,但这可能是调用API次数过多的结果。相反,设置exponential_back=True和至少延迟1秒可能会更有价值。服务器过载可能导致意外的问题。

cidc1ykv

cidc1ykv2#

我发现很难重现这个问题,有时候只是在使用相同数量的数据时才会出现。请考虑捕获异常并记录一个更有意义的错误信息。

1aaf6o9v

1aaf6o9v3#

也许吧。这是我第一次知道这个问题,所以我想先了解一下根本原因,然后再捕获异常。如果我不能复现它,我可能会添加某种异常。然而,由于实际上没有创建错误,我不能说“出了点问题,但我不知道是什么”。
如果在没有使用OpenAI的情况下运行,会创建多少主题?感觉要么是调用次数有问题,要么是模型不知道如何回应,所以它没有回应。
This issue 似乎与之相关,但我不确定如何解释空主题。
This issue 似乎指的是一个“内容过滤器”,所以可能是提示和文档的内容违反了他们的规定。

vuktfyat

vuktfyat4#

如果在没有使用OpenAI的情况下运行,会创建多少主题?
大约50个主题。如果我保持主题数量不变但增加输入数据大小,错误更有可能发生。
This issue似乎指的是一个"内容过滤器",因此可能是提示和文档的内容违反了他们的规定。
非常不可能,但也有可能是误报。

mwecs4sa

mwecs4sa5#

大约50个主题。如果我保持主题数量不变但增加输入数据的大小,错误更有可能发生。
这实际上表明了“content_filter”的问题。你添加的数据越多,特定文档被添加到提示的可能性就越大,这可能会触发内容过滤器。你在BERTopic上训练的是什么样的数据?
非常不可能,但也有可能是误报。
为什么这是不可能的?

00jrzges

00jrzges6#

Only topic keyword lists are added to the prompt. However, you are right, it is not impossible that some keyword in some topic triggers the content filter. (Documents include PubMed abstracts, so feel free to speculate). With ChatGPT I also sometimes get false positives of the content filter.
Can this be caught so that it does not derail the training?

bxfogqkk

bxfogqkk7#

这是否可以被捕捉到,以免影响训练?
当然可以。然而,它很可能会出现一堆警告,因为这不是预期的行为。这里的难点是我可以使用try/except,但并不完全清楚出了什么问题。所以需要一些额外的警告来传达OpenAI存在未知问题。此外,我很可能会使用这个非常特定的示例来捕获这个问题,即KeyError: 'content'。打开try/except是自找麻烦。
我会把它放在列表里,并确保在下一次发布之前修复它!

相关问题