正如标题所示,在scala spark中,如果我有一个如下所示的 Dataframe :
+-------------+----------+
| key | Time |
+-------------+----------+
| 1 | 1 |
| 1 | 2 |
| 1 | 4 |
| 2 | 2 |
| 2 | 3 |
+-------------+----------+
对于同一个key,如何只保留时间最短的key,而丢弃所有其他不必要的行呢?在本例中,对于key 1,它有3行时间不同,最短时间为1,所以我只想保留key 1,time 1行,并丢弃key 1的其他2行。对于key 2,同样,我只想保留key 2,time 2,所以我丢弃key 2。time 3行。key的格式为LongType,time的格式为StringType。是否有某种方法可以实现这一点?
+-------------+----------+
| key | Time |
+-------------+----------+
| 1 | 1 |
| 2 | 2 |
+-------------+----------+
我试过使用drop或filter功能,但我认为它们不起作用。
1条答案
按热度按时间eqqqjvef1#
尝试类似的东西,我自己的数据在这里当然:
退货: