如何在apache flink中执行自连接

j8ag8udp  于 2021-06-25  发布在  Flink
关注(0)|答案(0)|浏览(291)

通常在表上执行自联接时,会对联接表的ID进行限制,以避免对称结果和行与自身的联接。
在apache flink中实现自连接似乎至少有三种方法(如本文所述):
使用正则联接运算符 dataset.join(dataset) . 然而,上述限制似乎不可能以这种方式实现。
使用 reduce 运算符并手动实现连接。可能导致记忆问题。
组合 reduceGroup , flatMap ,和 reduceGroup . 这种方法被用于一些图形算法的gelly实现中,例如jaccardindex,其中的操作被命名为 GenerateGroupSpans , GenerateGroups , GenerateGroupPairs . 我不清楚这些名称是指某种模式还是计算策略。
在apache flink中有没有一种最好的方法来执行自连接,还是取决于用例?哪种方法在性能、内存和可靠性方面最好?理解方法3有一般模式吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题