对sparksql中数组列的每个元素执行udf(需要另一个spark作业)

gcuhipw9 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(320)

Hive表的结构( tbl_a )具体如下：

name | ids
A    | [1,7,13,25168,992]
B    | [223, 594, 3322, 192928]
C    | null
...

另一张Hive桌( tbl_b )在id到新的\u id之间有相应的Map。此表太大，无法加载到内存中

id | new_id
1  | 'aiks'
2  | 'ficnw'
...

我打算创建一个新的配置单元表，使其结构与 tbl_a ，但将id数组转换为新的\u id数组：

name | ids
A    | ['aiks','fsijo','fsdix','sssxs','wie']
B    | ['cx', 'dds', 'dfsexx', 'zz']
C    | null
...

有谁能告诉我如何在sparksql或sparkdataframe中实现这个场景？谢谢！

hadoop Hive apache-spark apache-spark-sql hiveql

来源：https://stackoverflow.com/questions/44316959/do-udf-which-another-spark-job-is-needed-to-each-element-of-array-column-in-sp

1条答案

按热度按时间

mkh04yzy1#

这是一个昂贵的操作，但您可以使用coalesce、explode和left outer join来实现它，如下所示：

tbl_a
    .withColumn("ids", coalesce($"ids", array(lit(null).cast("int"))))
    .select($"name", explode($"ids").alias("id"))
    .join(tbl_b, Seq("id"), "leftouter")
    .groupBy("name").agg(collect_list($"new_id").alias("ids"))
    .show

赞(0）回复(0）举报 2021-06-01

我来回答

对sparksql中数组列的每个元素执行udf(需要另一个spark作业)

1条答案

相关问题

热门标签

最新问答