无法访问pyspark:columncomilaries()，computecolumnsummarystatistics()中的rowmatrix方法

guz6ccqo 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(311)

我正在尝试使用函数columnComparison（），computeColumnSummarySummaryStatistics（）
尤其是本文中提到的columnComparison（）函数：
https://databricks.com/blog/2014/10/20/efficient-similarity-algorithm-now-in-spark-twitter.html
我使用的是来自mlib的稀疏向量列表。

sparse_vectors = []

for cust, group in df.groupby(0):

    i_v = zip(group[1].values, group[2].values)
    i_v = sorted(i_v)
    indices = [x[0] for x in i_v]
    values = [x[1] for x in i_v]
    sparse_vectors.append(Vectors.sparse(len(df[1].unique()), indices, values))

rows = sc.parallelize(sparse_vectors)
mat = RowMatrix(rows)

我得到一个错误：
attributeerror:“rowmatrix”对象没有“computecolumnsummarystatistics”属性
或者
attributeerror:“rowmatrix”对象没有属性“ColumnComparison”
每次我运行函数时。
这是pyspark的问题，而不是scala spark的问题吗？我也无法通过google搜索找到rowmatrix函数的页面。
谢谢您

hadoop python apache-spark pyspark bigdata

来源：https://stackoverflow.com/questions/36320417/cant-access-rowmatrix-methods-in-pyspark-columnsimilarities-computecolumnsu