我正在尝试使用函数columnComparison(),computeColumnSummarySummaryStatistics()
尤其是本文中提到的columnComparison()函数:
https://databricks.com/blog/2014/10/20/efficient-similarity-algorithm-now-in-spark-twitter.html
我使用的是来自mlib的稀疏向量列表。
sparse_vectors = []
for cust, group in df.groupby(0):
i_v = zip(group[1].values, group[2].values)
i_v = sorted(i_v)
indices = [x[0] for x in i_v]
values = [x[1] for x in i_v]
sparse_vectors.append(Vectors.sparse(len(df[1].unique()), indices, values))
rows = sc.parallelize(sparse_vectors)
mat = RowMatrix(rows)
我得到一个错误:
attributeerror:“rowmatrix”对象没有“computecolumnsummarystatistics”属性
或者
attributeerror:“rowmatrix”对象没有属性“ColumnComparison”
每次我运行函数时。
这是pyspark的问题,而不是scala spark的问题吗?我也无法通过google搜索找到rowmatrix函数的页面。
谢谢您
1条答案
按热度按时间wr98u20j1#
您无法访问这些方法,因为目前(spark 1.6)这些方法还没有在pyspark中实现。
IndexedRowMatrix.columnSimilarities
(参见spark-12041)在当前主控中可用,但要使用它,您必须从源代码构建spark。