Spark Scala将多列合并为单列

ubof19bj 于 2023-10-18 发布在 Scala

关注(0)|答案(1)|浏览(161)

我期待合并2个单独的行到一个Sparkscala。我已经尝试了按机制分组，但没有成功。
输入：

col1       col2  col3   col4    col5
2023-02-27  LHR  SFO    931 
2023-02-27  LHR  SFO             977

预期输出：

col1        col2    col3    col4    col5
2023-02-27  LHR     SFO      931    977

scala

来源：https://stackoverflow.com/questions/76926879/spark-scala-merging-multiple-columns-to-single-column

1条答案

按热度按时间

1szpjjfi1#

我不知道你在寻找什么逻辑。然而，这个想法似乎是按一定数量的列进行分组，然后聚合其他列，忽略空值。
可以这样做：

val df = Seq(
    ("2023-02-27", "LHR", "SFO", Some("931"), None ),
    ("2023-02-27", "LHR", "SFO", None, Some("977"))
).toDF("col1", "col2", "col3", "col4", "col5")

df.groupBy("col1", "col2", "col3")
  .agg(first('col4, ignoreNulls=true) as "col4",
       first('col5, ignoreNulls=true) as "col5"
  ).show()

+----------+----+----+----+----+                                                
|      col1|col2|col3|col4|col5|
+----------+----+----+----+----+
|2023-02-27| LHR| SFO| 931| 977|
+----------+----+----+----+----+

赞(0）回复(0）举报 2023-10-18

我来回答

Spark Scala将多列合并为单列

1条答案

相关问题

热门标签

最新问答