已关闭。此问题需要details or clarity。目前不接受回答。
**要改进此问题吗?**通过editing this post添加详细信息并阐明问题。
22天前关闭。
Improve this question的
我有两个数据集
的数据
的
我希望结果是一个数据集,它是两个结果数据集的组合
的
使用Java Spark
我试着做简单的连接
dataset1.join(dataset2).show();
字符串
但我得到一个错误
检测到逻辑计划之间的INNER联接的隐式Carnival产品
其他方式我绑做全外接
dataset1.join(dataset2,dataset1.col("A").equalTo(dataset2.col("B")),"outer").show();
型
但它的输入为空
的
但我希望结果是这样的
的
有人能给我建议另一种做这件事的方法吗
1条答案
按热度按时间hgtggwj01#
对于具有相同位置的连接行,可以通过Window
row_number
函数将位置添加到每个数据集,并通过此列执行外部连接。在Scala上,guess可以轻松转换为Java:字符串
结果是:
型
注意:使用没有分区的窗口,性能可能会很差。