在spark ml中使用SparseVector有什么缺点吗?

ef1yzkbh  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(252)

我有一些关于高维sparsevector和低基数的结果的问题。
鉴于:
我要训练一辆x型车
我有10个字符串特征
每个特征有10个不同的值
以下两者之间的区别是什么:
对所有特征使用大小为2048的hashingtf,得到大小为20480(稀疏)的特征向量
在所有特征上使用onehotencoder,得到大小为100(密集)的特征向量
我经常读到不用担心sparsevector,因为大多数索引都是空的。我知道内存方面,它不会占用那么多空间,但我想知道,如果我使用小的固定大小的向量而不是大的sparsevector,它是否会加快训练速度。
谢谢

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题