无法访问pyspark:columncomilaries(),computecolumnsummarystatistics()中的rowmatrix方法

guz6ccqo  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(311)

我正在尝试使用函数columnComparison(),computeColumnSummarySummaryStatistics()
尤其是本文中提到的columnComparison()函数:
https://databricks.com/blog/2014/10/20/efficient-similarity-algorithm-now-in-spark-twitter.html
我使用的是来自mlib的稀疏向量列表。

sparse_vectors = []

for cust, group in df.groupby(0):

    i_v = zip(group[1].values, group[2].values)
    i_v = sorted(i_v)
    indices = [x[0] for x in i_v]
    values = [x[1] for x in i_v]
    sparse_vectors.append(Vectors.sparse(len(df[1].unique()), indices, values))

rows = sc.parallelize(sparse_vectors)
mat = RowMatrix(rows)

我得到一个错误:
attributeerror:“rowmatrix”对象没有“computecolumnsummarystatistics”属性
或者
attributeerror:“rowmatrix”对象没有属性“ColumnComparison”
每次我运行函数时。
这是pyspark的问题,而不是scala spark的问题吗?我也无法通过google搜索找到rowmatrix函数的页面。
谢谢您

wr98u20j

wr98u20j1#

您无法访问这些方法,因为目前(spark 1.6)这些方法还没有在pyspark中实现。 IndexedRowMatrix.columnSimilarities (参见spark-12041)在当前主控中可用,但要使用它,您必须从源代码构建spark。

相关问题