如何使用python连接spark流中的三个数据流

k7fdbhmy  于 2021-06-06  发布在  Kafka
关注(0)|答案(0)|浏览(253)

我有三个Kafka生产者是发送数据流在5-10秒之间的随机间隔相同的主题。有一个spark使用者(基于python)正在使用数据。
要求首先将传入流分离为消费者中的3个独立流,然后基于列将它们连接起来。生产者是使用python开发的。
我已经成功地用python将传入的数据流划分为3个独立的流。然而,我面临的问题是,基于一个键(传入数据流中的第一个值)将所有3个元素重新连接在一起。
当我加入2个流时,连接按预期工作。然而,当我加入所有3个流时,我没有得到任何输出。

P1.LeftOuterJoin(P2) # works
P1.LeftOuterJoin(P3) # works
P2.Join(P3) # works

P1.LeftOuterJoin(P2.Join(P3)) # no output coming up

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题