scala spark使用窗口函数查找最大值

k0pti3hp 于 2021-05-22 发布在 Spark

关注(0)|答案(2)|浏览(612)

我的数据集如下所示：

+------------------------|-----+
|               timestamp| zone|
+------------------------+-----+
|    2019-01-01 00:05:00 |    A|
|    2019-01-01 00:05:00 |    A|
|    2019-01-01 00:05:00 |    B|
|    2019-01-01 01:05:00 |    C|
|    2019-01-01 02:05:00 |    B|
|    2019-01-01 02:05:00 |    B|
+------------------------+-----+

每小时我都需要计算哪个区域的行数最多，最后得到一个如下所示的表：

+-----|-----+-----+
| hour| zone| max |
+-----+-----+-----+
|    0|    A|    2|
|    1|    C|    1|
|    2|    B|    2|
+-----+-----+-----+

我的指令说，我需要使用窗口功能和“分组方式”来找到我的最大计数。
我试过一些方法，但我不确定是否接近。任何帮助都将不胜感激。

scala apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/64364563/scala-spark-use-window-function-to-find-max-value

2条答案

按热度按时间

vm0i2vca1#

你可以用 Windowing functions 以及 group by 使用Dataframe。
在你的情况下，你可以 rank() over(partition by) 窗口功能。

import org.apache.spark.sql.function._
// first group by hour and zone
    val df_group = data_tms.
      select(hour(col("timestamp")).as("hour"), col("zone"))
      .groupBy(col("hour"), col("zone"))
      .agg(count("zone").as("max"))
// second rank by hour order by max in descending order
    val df_rank = df_group.
      select(col("hour"),
        col("zone"),
        col("max"),
        rank().over(Window.partitionBy(col("hour")).orderBy(col("max").desc)).as("rank"))
// filter by col rank = 1
    df_rank
      .select(col("hour"), 
        col("zone"), 
        col("max"))
      .where(col("rank") === 1)
      .orderBy(col("hour"))
     .show()
/*
+----+----+---+
|hour|zone|max|
+----+----+---+
|   0|   A|  2|
|   1|   C|  1|
|   2|   B|  2|
+----+----+---+
* /

展开查看全部

赞(0）回复(0）举报 2021-05-23

rbl8hiat2#

您可以使用两个后续窗口函数来获得结果：

df
  .withColumn("hour",hour($"timestamp"))
  .withColumn("cnt",count("*").over(Window.partitionBy($"hour",$"zone")))
  .withColumn("rnb",row_number().over(Window.partitionBy($"hour").orderBy($"cnt".desc)))
  .where($"rnb"===1)
  .select($"hour",$"zone",$"cnt".as("max"))

赞(0）回复(0）举报 2021-05-23

我来回答

scala spark使用窗口函数查找最大值

2条答案

相关问题

热门标签

最新问答