BERTopic 内核崩溃来自.fit_transform

uurv41yg  于 3个月前  发布在  其他
关注(0)|答案(8)|浏览(69)

我正在尝试在Mac(16GB RAM,Intel i7)上运行BERTopic模型,使用来自sklearn.datasets(fetch_20newsgroups)的示例数据。以下代码可以正常运行。

topic_model = BERTopic()
docs = fetch_20newsgroups(subset='all',  remove=('headers', 'footers', 'quotes'))['data']

但是当运行以下代码时,内核崩溃:

topics, probs = topic_model.fit_transform(docs)

问题似乎发生在最后,因为它发生在所有文档转换为嵌入之后,并且显示“嵌入完成”。在内核死亡之前,有以下警告信息:

OMP: Info #276: omp_set_nested routine deprecated, please use omp_set_max_active_levels instead.
UserWarning: resource_tracker: There appear to be 1 leaked semaphore objects to clean up at shutdown
  warnings.warn('resource_tracker: There appear to be %d '

Restarting kernel...

当仅运行几个简短的文档(甚至短到句子)时,也会出现同样的情况。
你知道问题可能是什么以及如何解决吗?

sqyvllje

sqyvllje2#

你好,
谢谢。我尝试了他们建议的方法,但没有成功。对我来说,这不仅仅是一个警告信息,程序会死掉并重启内核。奇怪的是,我可以在没有任何问题的情况下运行基于Transformers的其他模型,比如用于情感分析的RoBERTa。我只见过其他使用Mac的人也有类似的问题。你认为这可能与Mac有关吗?

zi8p0yeb

zi8p0yeb3#

你也可以尝试设置verbose=True,这样我们可以更精细地了解问题,以及何时会出现错误。可能只是你的设备对于某个步骤来说不够强大。

csga3l58

csga3l584#

这是我在将verbose设置为True时看到的内容。

2024-01-29 08:58:34,214 - BERTopic - Embedding - Transforming documents to embeddings.
Batches: 100%|████████████████████████████████| 589/589 [17:19<00:00,  1.76s/it]
2024-01-29 09:15:55,064 - BERTopic - Embedding - Completed ✓
2024-01-29 09:15:55,065 - BERTopic - Dimensionality - Fitting the dimensionality reduction algorithm
OMP: Info #276: omp_set_nested routine deprecated, please use omp_set_max_active_levels instead.

我还在我的Windows电脑上尝试过,它可以正常工作。然而,如果它能在我用于工作的MacBook上运行,我会非常高兴。当然,如果问题是电脑太弱了,那也没有办法,但至少我知道了,并可以要求一台更强大的电脑。

eaf3rand

eaf3rand5#

很可能,这看起来像是UMAP在你的系统上可能不受支持的问题,或者你的系统确实不够强大。从一个完全新的环境中开始,重新安装可能会确保你有所有依赖项的最新版本。最后,在UMAP中使用low_memory=True可能会解决你的问题,参见https://maartengr.github.io/BERTopic/getting_started/dim_reduction/dim_reduction.html#umap。请确保添加该参数,而不是删除示例中的参数。

ovfsdjhp

ovfsdjhp6#

@MaartenGr@LindaAiko :在尝试从hierarchical visualizationdatamapplot的文档中重现代码时遇到了相同的问题
我的笔记本电脑肯定不是资源受限的(我认为):

  • M1 Pro,32GB RAM
  • Sanoma 14.3.1
  • Python 3.11.7

在我的情况下,内核不会崩溃,但在使用20newsgroup数据时,20分钟内没有返回任何内容。我会进一步调查。

jucafojl

jucafojl7#

好的,这个消息是关于numba已知的,适用于运行Sonoma的Apple M1:
numba/numba#5520 (评论)

pod7payv

pod7payv8#

更新:我可以在Google Colab上顺利运行它。所以问题似乎是出在我的电脑上。

相关问题