我有一个pyspark数据框
| ID|colA|colB|colC|
+---+----+----+----+
|ID1| 3| 5| 6|
|ID2| 4| 12| 7|
|ID3| 2| 20| 22|
+---+----+----+----+
我要选择行 ID3
并选择三列的最大值,然后显示最大值的列名。所以如果我为行选择三列的最大值 ID3
它应该返回如下:
|colC|
+----+
|22 |
+----+
所以我的问题是,我们如何从pyspark dataframe中选择一行并基于该行的最大列值选择列名?
1条答案
按热度按时间7gcisfzg1#
你可以在上面过滤
ID = 'ID3'
使用greatest
函数来获取最大列名及其值。然后将其作为列: