我正在尝试使用pyspark.pandas API在Databricks上构建我的 Dataframe 的共现矩阵。
我尝试了这种方法来构造矩阵。Constructing a co-occurrence matrix in python pandas
代码在panda中运行良好,但在pyspark中抛出错误。
coocc = psdf.T.dot(psdf)
coocc
我收到此错误
TypeError: Unsupported type DataFrame
pyspark.pandas.DataFrame.dot()
将系列作为输入。
我尝试使用psdf.squeeze()
将 Dataframe 转换为序列,但它无法将 Dataframe 转换为序列,因为我的 Dataframe 有多个列。
有没有办法把pyspark.pandas.Dataframe
变成pyspark.pandas.Series
?或者pyspark.pandas中构造共生矩阵的不同方法
1条答案
按热度按时间qgzx9mmu1#
我使用
csr_matrix
作为 Dataframe 来解决它, Dataframe 的值为'1'和'0'参考编号:https://stackoverflow.com/a/37840528/19642283