有没有一种方法可以简化spark sql中嵌套数据的工作？

z4iuyo4d 于 2021-07-13 发布在 Spark

关注(0)|答案(0)|浏览(149)

我正在使用sparksql（使用scala）并且我发现当我想要在Dataframe内操作数组数据来做更多的事情时，有很多限制，而不需要传递到rddapi并重建模式来返回sparksqlDataframe抽象。
我的用例的一个例子是：“给定一个嵌套结构，不仅分解记录，而且合并并解决数组中记录之间的冲突”。
例如，考虑一个客户的订单数组，考虑到订单可以重叠，并且一个客户可以有多个具有相同id的订单：我希望在爆炸阶段，重叠数据之间的订单冲突将得到解决。
实际上，我可以用rdd来实现这一点，但是我的代码看起来很棘手，我希望不用rdd级别的go来实现这一点。有没有一种方法或库可以扩展sparksql来编写干净的代码并以线性模式对数组进行操作？
另一个用例可以是“我只想分解嵌套Dataframe中的叶数组”。
事先谢谢你的帮助。

scala apache-spark apache-spark-sql Arrays

来源：https://stackoverflow.com/questions/66225913/is-there-a-way-to-simplify-working-with-nesting-data-in-spark-sql

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

有没有一种方法可以简化spark sql中嵌套数据的工作？

暂无答案！

相关问题

热门标签

最新问答