sparkscala中sparkDataframe中两个集合的合并

jvidinwx 于 2021-07-12 发布在 Spark

关注(0)|答案(0)|浏览(450)

我在sparkscala中使用groupby函数在dataframe中创建一个set列。
就像下面。。。

val ERROR_GEN_DF1 = GEN_DF.groupBy("KEY_COL").agg(collect_set("ERROR_DESCRIPTION").alias("ERROR_DESCRIPTION_TEMP_GEN"),collect_set("ERROR_COLUMN").alias("ERROR_COLUMN_TEMP_GEN")).drop("ERROR_DESCRIPTION","ERROR_COLUMN")

val ERROR_PROD_DF1 = ERROR_GEN_DF1.groupBy("KEY_COL2").agg(collect_set("ERROR_DESCRIPTION").alias("ERROR_DESCRIPTION_TEMP_PROD"),collect_set("ERROR_COLUMN").alias("ERROR_COLUMN_TEMP_PROD")).drop("ERROR_DESCRIPTION","ERROR_COLUMN")

我需要创建一个新的dataframe，通过组合上述两组各自的dataframe来创建一个新列。
就像 val New_DF = ERROR_GEN_DF1.withColumn("NewSet",<ERROR_DESCRIPTION_TEMP_PROD + ERROR_DESCRIPTION_TEMP_GEN>) 请建议在sparkDataframe中组合或合并两个集合列的函数
谢谢，纳文

scala apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/66550396/how-to-combine-two-set-in-spark-data-frame-in-spark-scala

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

sparkscala中sparkDataframe中两个集合的合并

暂无答案！

相关问题

热门标签

最新问答