python 如何根据条件对pyspark Dataframe 中的列值进行排序

hfyxw5xn 于 2022-12-02 发布在 Python

关注(0)|答案(1)|浏览(164)

我有一个 Dataframe ：

id  vehicle asIs    EU     EU_variant
1   A3345   PQ1298  FV1    FV1_variant
2   A3346   PQ1287  FV2    FV2_variant
3   A3346   PQ1207  FV2    FV2_variant
4   A3347           QP9    QP9_variant
5   A3347           QP9    QP9_variant
6   A3347           QP3    QP3_variant
7   A3348   MP6553  YR34   YR34_variant
8   A3348   MP6554  YR35   YR35_variant
9   A3348   MP6554  YR35   YR35_variant

对于不同车辆和不同的EU，我想对EU_variant进行排序，并在新列中将其连接起来
结果应该是：

id   vehicle asIs    EU     EU_variant   ECU_Variant_rank
    1   A3345   PQ1298  FV1    FV1_variant  FV1_variant(1)
    2   A3346   PQ1287  FV2    FV2_variant  FV2_variant(1)
    3   A3346   PQ1207  FV2    FV2_variant  FV2_variant(2)
    4   A3347           QP9    QP9_variant  QP9_variant(1)
    5   A3347           QP9    QP9_variant  QP9_variant(2)
    6   A3347           QP3    QP3_variant  QP3_variant(1)
    7   A3348   MP6553  YR34   YR34_variant YR34_variant(1)
    8   A3348   MP6554  YR35   YR35_variant YR35_variant(1)
    9   A3348   MP6554  YR35   YR35_variant YR35_variant(2)

如何使用pyspark dataframe实现此操作

python

来源：https://stackoverflow.com/questions/74646405/how-to-rank-the-column-values-in-pyspark-dataframe-according-to-conditions

1条答案

按热度按时间

r8xiu3jd1#

您可以将Window与rank搭配使用：

from pyspark.sql import functions as F, Window

# you can order by the column you prefer, not only id
w = Window.partitionBy('vehicle', 'EU_variant').orderBy('id')
df.withColumn(
    'ECU_Variant_rank', 
    F.concat_ws('', F.col('EU_variant'), F.lit('('), F.rank().over(w), F.lit(')'))
)

结果如下：

+---+-------+------+----+------------+----------------+
|id |vehicle|asIs  |EU  |EU_variant  |ECU_Variant_rank|
+---+-------+------+----+------------+----------------+
|1  |A3345  |PQ1298|FV1 |FV1_variant |FV1_variant(1)  |
|2  |A3346  |PQ1287|FV2 |FV2_variant |FV2_variant(1)  |
|3  |A3346  |PQ1207|FV2 |FV2_variant |FV2_variant(2)  |
|4  |A3347  |null  |QP9 |QP9_variant |QP9_variant(1)  |
|5  |A3347  |null  |QP9 |QP9_variant |QP9_variant(2)  |
|6  |A3347  |null  |QP3 |QP3_variant |QP3_variant(1)  |
|7  |A3348  |MP6553|YR34|YR34_variant|YR34_variant(1) |
|8  |A3348  |MP6554|YR35|YR35_variant|YR35_variant(1) |
|9  |A3348  |MP6554|YR35|YR35_variant|YR35_variant(2) |
+---+-------+------+----+------------+----------------+

赞(0）回复(0）举报 2022-12-02

我来回答

python 如何根据条件对pyspark Dataframe 中的列值进行排序

1条答案

相关问题

热门标签

最新问答