有没有一种方法可以简化spark sql中嵌套数据的工作?

z4iuyo4d  于 2021-07-13  发布在  Spark
关注(0)|答案(0)|浏览(136)

我正在使用sparksql(使用scala)并且我发现当我想要在Dataframe内操作数组数据来做更多的事情时,有很多限制,而不需要传递到rddapi并重建模式来返回sparksqlDataframe抽象。
我的用例的一个例子是:“给定一个嵌套结构,不仅分解记录,而且合并并解决数组中记录之间的冲突”。
例如,考虑一个客户的订单数组,考虑到订单可以重叠,并且一个客户可以有多个具有相同id的订单:我希望在爆炸阶段,重叠数据之间的订单冲突将得到解决。
实际上,我可以用rdd来实现这一点,但是我的代码看起来很棘手,我希望不用rdd级别的go来实现这一点。有没有一种方法或库可以扩展sparksql来编写干净的代码并以线性模式对数组进行操作?
另一个用例可以是“我只想分解嵌套Dataframe中的叶数组”。
事先谢谢你的帮助。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题