BERTopic 表示模型多样性参数不起作用,

6ljaweal  于 5个月前  发布在  其他
关注(0)|答案(2)|浏览(81)

你好,Maarten,

感谢这个很棒的包。
我正在使用OpenAI作为表示模型来获取标题和一行摘要。
由于我的数据中有很多重复项,所以我想使用一个多样性参数来选择足够多样化的文档,但它不起作用。

这影响了主题表示文档的效果

此外,在我的提示中,我使用了[DOCUMENTS],我如何检查哪些文档发送给了LLM?
openai_model = OpenAI( client = client, model="gpt-3.5-turbo", exponential_backoff=True, prompt=prompt, delay_in_seconds=2, chat=True, nr_docs=60, doc_length=100, diversity = 0.75, tokenizer=tokenizer)

gcuhipw9

gcuhipw91#

在BERTopic中保存的一组代表性文档与传递给OpenAI的文档是分开的。换句话说,在BERTopic中保存的代表性文档不受OpenAI表示模型的diversity参数的影响。
这意味着diversity正在工作,你不能仅使用代表性文档来检查。相反,你可以使用内部表示模型的属性来检查提示。我认为它类似于.prompts_,但你需要检查OpenAI表示模型的代码。

ltskdhd1

ltskdhd12#

感谢您的快速回复。当然,我会检查OpenAI表示模型的代码。

相关问题