我正在尝试建立一个回归模型,其中基本特征矩阵非常大(73k列上有418k行),而且非常稀疏(58m非零值,约占整个矩阵的0.2%)。
我将矩阵坐标表示为Dataframe,其中第一列是行坐标 i
,第二个是柱坐标 j
第三是价值观 {i,j}
第四个位置。
e、 g.以下矩阵:
+-+-+-+
|0|1|0|
|2|0|0|
|0|0|3|
+-+-+-+
表示为
+-+-+-----+
|i|j|value|
+-+-+-----+
|0|1| 1 |
|1|0| 2 |
|2|2| 3 |
+-+-+-----+
我有一个单独的数据框,包含每一行的标签 i
.
如果可能的话,我更喜欢使用更新的解决方案 ml
图书馆而不是老图书馆 mllib
1条答案
按热度按时间dced5bon1#
下面我给出一个小的代码示例,说明如何在中实现分布式稀疏线性回归
spark ml
. 我在一个大型集群(databricks runtime version 6.5ml-包括apachespark 2.4.5和scala 2.11)上使用了这个矩阵,因此它的伸缩性很好,只需几分钟就可以执行。