pyspark-case语句over-window函数

oxosxuxt 于 2021-07-09 发布在 Spark

关注(0)|答案(1)|浏览(361)

我得到了一个Dataframe，我需要检查下面的三列来过滤正确的行。
给定Dataframe输入：

customer_number acct_registration_ts          last_login_ts acct_create_ts
28017150        null                           null         2018-02-13T00:43:26.747+0000
28017150        null                           null         2014-09-11T15:58:29.593+0000
28017150        2014-05-14T23:11:40.167+0000   null         2014-05-12T00:00:00.000+0000

预期的Dataframe输出：

customer_number acct_registration_ts          last_login_ts acct_create_ts
28017150        2014-05-14T23:11:40.167+0000   null         2014-05-12T00:00:00.000+0000

过滤条件：
如果acct\u registration不为空，则获取acct\u registration行的最大值。
如果acct\u registration\u ts为空，则检查上次登录\u ts，如果上次登录\u ts不为空，则获取上次登录\u ts行的最大值。
如果acct\u registration\u ts和last\u login\u ts都为空，则获取acct\u create\u ts行的最大值。
这里我需要按customer\u number列分组，然后应用上述3种过滤逻辑。我尝试了pyspark窗口函数，但没有得到预期的输出。任何帮助都将不胜感激。

apache-spark pyspark apache-spark-sql window-functions

来源：https://stackoverflow.com/questions/66967773/pyspark-case-statement-over-window-function

1条答案

按热度按时间

n3schb8v1#

您可以在所有三列中使用一个窗口：

from pyspark.sql import functions as F, Window

w = Window.partitionBy('customer_number').orderBy(*[F.desc_nulls_last(c) for c in df.columns[1:]])

df2 = df.withColumn('rn', F.dense_rank().over(w)).filter('rn = 1')

df2.show(truncate=False)
+---------------+----------------------------+-------------+----------------------------+---+
|customer_number|acct_registration_ts        |last_login_ts|acct_create_ts              |rn |
+---------------+----------------------------+-------------+----------------------------+---+
|28017150       |2014-05-14T23:11:40.167+0000|null         |2014-05-12T00:00:00.000+0000|1  |
+---------------+----------------------------+-------------+----------------------------+---+

赞(0）回复(0）举报 2021-07-09

我来回答

pyspark-case语句over-window函数

1条答案

相关问题

热门标签

最新问答