获取pyspark列中列表列表中第一个元素的最大值

yzuktlbb  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(672)

我有一个pyspark列,其中包含如下列表的值

  1. row 1: [['01', '100.0'], ['01', '400.0'], [None, '0.0'], ['06', '0.0'], ['01', '300'], [None, '0.0'], ['06', '200.0']]
  2. row 2: [[None, '200.0'], ['06', '300.0'], ['01', '500'], ['06', '100.0'], ['01', '200'], ['07', '50.0']]

我需要将元素与列表列表中的同一个第一个元素进行比较,并筛选出每对具有最大第二个元素的数组。虽然数组的第一个元素可能有不同的代码,但我想过滤掉包含“01”、“06”或“07”的数组元素,并在Dataframe中添加两列。
因此,上面一个示例行的结果如下所示:

  1. [['01', '400.0'], ['06', '200.0'], ['07':'0']
  2. [['01', '500.0'], ['06', '300.0'], ['07':'50']

最有效的方法是什么?

ljo96ir5

ljo96ir51#

这应该做到:

  1. from pyspark.sql import functions as F
  2. df.withColumn("Max_01",F.when(F.size(F.expr("""filter(arr,x-> exists(x,y->y='01'))"""))!=0,
  3. F.expr("""array_max(transform(filter(arr, x-> exists(x,y-> y='01')),z-> float(z[1])))"""))\
  4. .otherwise(F.lit(0)))\
  5. .withColumn("Max_06",F.when(F.size(F.expr("""filter(arr,x-> exists(x,y->y='06'))"""))!=0,
  6. F.expr("""array_max(transform(filter(arr, x-> exists(x,y-> y='06')),z-> float(z[1])))"""))\
  7. .otherwise(F.lit(0)))\
  8. .withColumn("Max_07",F.when(F.size(F.expr("""filter(arr,x-> exists(x,y->y='07'))"""))!=0,
  9. F.expr("""array_max(transform(filter(arr, x-> exists(x,y-> y='07')),z-> float(z[1])))"""))\
  10. .otherwise(F.lit(0)))\
  11. .show(truncate=False)
  12. # +---------------------------------------------------------------------------------+------+------+------+
  13. # |arr |Max_01|Max_06|Max_07|
  14. # +---------------------------------------------------------------------------------+------+------+------+
  15. # |[[01, 100.0], [01, 400.0], [, 0.0], [06, 0.0], [01, 400.0], [, 0.0], [06, 200.0]]|400.0 |200.0 |0.0 |
  16. # |[[, 200.0], [06, 300.0], [01, 500], [06, 100.0], [01, 200], [07, 50.0]] |500.0 |300.0 |50.0 |
  17. # +---------------------------------------------------------------------------------+------+------+------+
展开查看全部

相关问题