hadoop 使用“窗口上方”的多个聚集函数(Concat和max)

aelbi1ox 于 2022-11-01 发布在 Hadoop

关注(0)|答案(1)|浏览(191)

我是Spark的初学者，有没有办法在同一个窗口上为两个不同的列应用多个聚集函数？在我的例子中，我想应用concat和max
我有一个这样的数据集（DS1）。

+-----+--------------+---------+--------------+
|Col_1|Col_2         | Col_3   + Col_4        |
+-----+--------------+---------+--------------+
|  1  |  aa          |10       + test_1_1     +
|  1  |  bb          |20       + test_1_2     +
|  2  |  cc          |30       + test_2_1     +
|  2  |  dd          |40       + test_2_2     +

我想得到这样的东西（DS2）

+-----+--------------+---------+--------------+--------
|Col_1|Col_2         | Col_3   + Col_5                |
+-----+--------------+---------+----------------------+
|  1  |  bb          |20       + test_1_2;test_1_1    +
|  2  |  dd          |40       + test_2_2;test_2_1    +
------|--------------|---------+----------------------+

我知道如何在窗口上应用max函数，但如何添加串联以获得数据集DS2

val partitionColumns = Seq(
    "Col_1"
  )
     df.withColumn(
              "max_Col_3",
              max(col("Col_3")) over Window
                .partitionBy(
                  partitionColumns .map(col): _*
                )
            )
    .filter(col("max_Col_3").equalTo(col("Col_3")))
    .drop("max_Col_3")

hadoop

来源：https://stackoverflow.com/questions/72271342/multiple-agg-functions-using-over-window-concat-max

1条答案

按热度按时间

jyztefdp1#

您可以使用sql expr来分别取得col2、col3、col5。

val DS2 = DS1.groupBy("col_1").agg(expr("max(col_2) as col_2"), expr("max(col_3) as col_3"), expr("array_join(collect_list(col_4), ';') as col_5"))
DS2.show()

赞(0）回复(0）举报 2022-11-01

我来回答

hadoop 使用“窗口上方”的多个聚集函数(Concat和max)

1条答案

相关问题

热门标签

最新问答