groupby tolist元素顺序

daolsyd0 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(488)

我有一个有几个领域的富里管，比如说：

'sex
'weight
'age

我需要按“性别”分组，然后得到一个元组列表（“体重”和“年龄”）。然后我想对每个组的列表执行scanlight操作，得到一个带有“sex and”结果的管道。我现在是这样做的

pipe.groupBy('sex) {_.toList('weight -> 'weights).toList('age - 'ages)}

然后把这两个列表压缩到一起。我不确定这是最好的方法，也不确定列表中值的顺序是否相同，这样当我压缩两个列表时，元组就不会与错误的值混淆。我在文件里找不到这个。

1条答案

好吧，看来我已经回答了我自己的问题。
你可以简单的做

pipe.groupBy('sex) {_.toList[(Int, Int)](('weight, 'age) -> 'list)}

这会产生一个元组列表。如果fields api引用提到这一点，我会节省很多时间。