pyspark最新值替换组中的所有其他值

vsikbqxv 于 2021-07-14 发布在 Spark

关注(0)|答案(1)|浏览(452)

我们有以下PyparkDataframe：

+----+----------+----------+----------+---------+
|year|language_1| summary_1|language_2|summary_2|
+----+----------+----------+----------+---------+
|2013|      Java|     Great|    Python| Briliant|
|2014|    Python|   Awesome|     Scala| Horrible|
|2015|    Python|   Amazing|      Java|      Wow|
|2016|    Python|Incredible|       C++|     Nice|
|2017|     Scala|      Good|       C++|    Noway|
|2018|     Scala| Fantastic|       C++|     Cool|
+----+----------+----------+----------+---------+

这个问题有点难以解释，所以请容忍我。对于语言1和语言2中的所有相同语言，我希望能够使用“年”列作为分界符来调整摘要1和摘要2列的值，因此相同语言应该为该语言选择具有最大年份的行，并将摘要1和摘要2中的所有摘要更改为等于最大年份行的摘要）。例如，对于python，我希望能够用“incredible”替换所有摘要，因为“incredible”行是python最近的一年。以此类推。所以结果是：

+----+----------+----------+----------+----------+
|year|language_1| summary_1|language_2| summary_2|
+----+----------+----------+----------+----------+
|2013|      Java|       Wow|    Python|Incredible|
|2014|    Python|Incredible|     Scala| Fantastic|
|2015|    Python|Incredible|      Java|       Wow|
|2016|    Python|Incredible|       C++|      Cool|
|2017|     Scala| Fantastic|       C++|      Cool|
|2018|     Scala| Fantastic|       C++|      Cool|
+----+----------+----------+----------+----------+

apache-spark pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/67250180/pyspark-most-recent-value-replaces-all-other-values-in-group

1条答案

按热度按时间

gdx19jrr1#

不确定这是否是最好的方法，但您可以首先融化数据框，使其仅包含3列（年份、语言、摘要），使用上一个问题的答案，然后旋转数据框以恢复原始结构：

df2 = df.selectExpr(
    'year', 
    'posexplode(array(struct(language_1 as language, summary_1 as summary), struct(language_2 as language, summary_2 as summary)))'
).select(
    'year', 'pos', 'col.*'
).withColumn(
    'summary', 
    F.max(F.struct('year', 'summary')).over(Window.partitionBy('language'))['summary']
).groupBy('year').pivot('pos').agg(
    F.first(F.struct('language', 'summary'))
).select(
    'year', '0.*', '1.*'
).toDF(*df.columns).orderBy('year')
df2.show()
+----+----------+----------+----------+----------+
|year|language_1| summary_1|language_2| summary_2|
+----+----------+----------+----------+----------+
|2013|      Java|       Wow|    Python|Incredible|
|2014|    Python|Incredible|     Scala| Fantastic|
|2015|    Python|Incredible|      Java|       Wow|
|2016|    Python|Incredible|       C++|      Cool|
|2017|     Scala| Fantastic|       C++|      Cool|
|2018|     Scala| Fantastic|       C++|      Cool|
+----+----------+----------+----------+----------+

展开查看全部

赞(0）回复(0）举报 2021-07-14

我来回答

pyspark最新值替换组中的所有其他值

1条答案

相关问题

热门标签

最新问答