在spark ml中使用SparseVector有什么缺点吗？

ef1yzkbh 于 2021-05-29 发布在 Spark

关注(0)|答案(0)|浏览(259)

我有一些关于高维sparsevector和低基数的结果的问题。
鉴于：
我要训练一辆x型车
我有10个字符串特征
每个特征有10个不同的值
以下两者之间的区别是什么：
对所有特征使用大小为2048的hashingtf，得到大小为20480（稀疏）的特征向量
在所有特征上使用onehotencoder，得到大小为100（密集）的特征向量
我经常读到不用担心sparsevector，因为大多数索引都是空的。我知道内存方面，它不会占用那么多空间，但我想知道，如果我使用小的固定大小的向量而不是大的sparsevector，它是否会加快训练速度。
谢谢

apache-spark machine-learning sparse-matrix

来源：https://stackoverflow.com/questions/62409013/are-there-any-drawbacks-to-using-sparsevectors-in-spark-ml

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

在spark ml中使用SparseVector有什么缺点吗？

暂无答案！

相关问题

热门标签

最新问答