我有一个有两列的csv文件
id, features
id列是一个字符串,features列是一个逗号分隔的机器学习算法的特征值列表,即“[1,4,5]”我基本上只需要对值调用vectors.parse()就可以得到一个向量,但我不想先转换为rdd。
我想把它放到spark数据框中,其中features列是 org.apache.spark.mllib.linalg.Vector
我正在用databricks csvapi将其读入一个dataframe,并尝试将features列转换为一个向量。
有人知道如何在java中做到这一点吗?
1条答案
按热度按时间zlwx9yxi1#
我找到了一种用自定义项的方法。还有其他方法吗?