我目前正在使用ApacheFlink的svm类来预测一些文本数据。
该类提供了一个predict函数,该函数将数据集[vector]作为输入,并将数据集[prediction]作为结果提供给我。到现在为止,一直都还不错。
我的问题是,我没有上下文哪个预测属于哪个文本,并且我不能在predict()函数中插入文本以使其随后生效。
代码:
val tweets: DataSet[(SparseVector, String)] =
source.flatMap(new SelectEnglishTweetWithCreatedAtFlatMapper)
.map(tweet => (featureVectorService.transform(tweet._2))
model.predict(tweets).print
result example:
(SparseVector((462,8.73165920153676), (10844,8.508515650222549), (15656,2.931052542245018)),-1.0)
有没有办法把其他数据放在预测的旁边,以便把所有数据都放在一起?因为没有上下文的预测对我没有帮助。
或者有一种方法可以预测一个向量而不是一个数据集,我可以调用上面map函数中的函数。
1条答案
按热度按时间webghufk1#
这个
SVM
预测器期望输入一个子类型的Vector
. 因此,有两种方法可以解决这个问题:创建子类型
Vector
它包含作为标记的tweet文本。然后它将通过预测器循环。这种方法的优点是不需要额外的操作。但是,需要定义新的类和实用程序来用标记表示不同的向量类型:加入预测
DataSet
与输入DataSet
关于矩阵的向量化表示tweets
. 这种方法的优点是我们不需要引入新的类。我们为此付出的代价是额外的联接操作,这可能会很昂贵: