我有一个LDA模型,其中我得到了每个文档的主题概率矩阵如下。
doc_lda = lda_model[corpus]
如何为每个文档提取最大可能性的主题ID?除了将doc_lda转换为列表或 Dataframe 之外,我还有很多困难。把它转换成一个列表,它看起来就像一个元组的列表的列表?
doc_lda
kuarbcqp1#
基于一些人的代码here和here:
all_topics = lda_model.get_document_topics(corpus, minimum_probability=0.0) all_topics_csr = gensim.matutils.corpus2csc(all_topics) all_topics_numpy = all_topics_csr.T.toarray() all_topics_df = pd.DataFrame(all_topics_numpy) all_topics_df.idxmax(axis=1)
1条答案
按热度按时间kuarbcqp1#
基于一些人的代码here和here: