KafkaSpark流的窗口操作_大数据知识库

我试图探索Spark流从Kafka作为来源。根据这个链接，createdirectstream在kafka分区和spark之间有1:1的并行性。这意味着，如果有一个kafka主题有3个分区，那么3个spark执行器将并行运行，每个执行器读取一个分区。
问题
假设在读取数据之后有一个窗口操作。窗口操作是跨分区应用窗口还是在一个分区内应用窗口，也就是说我的批处理间隔是10秒，窗口间隔是50秒。window是否在分区之间累积50秒的数据（如果每个分区50秒内有10条记录，window是否保存30条记录）或并行地在每个分区中累积50秒的数据（如果每个分区50秒内有10条记录，window是否保存10条记录）？
伪代码：
rdd=createdirectstream（…）
rdd.window（）
rdd.saveastextfile（）//这是将30条记录写入1个文件还是3个文件，每个文件10条记录？
假设我有这个。。。
伪代码：
rdd=createdirectstream（）
rdd.action1（）
rdd.window（）
rdd.action2（）
假设，我有3个kafka分区和3个执行器（每个执行器读一个主题）。这会旋转两个作业，因为有两个动作。每个spark执行器都有rdd的分区，action1是并行应用的。现在对于action2，是否会使用同一组执行器（否则，必须再次从kafka读取数据-不好）？

q）如果有一个kafka主题有3个分区，那么3个spark执行器将并行运行，每个执行器读取一个分区。
更具体地说，将有3个任务提交给spark集群，每个分区一个任务。这些任务的执行位置取决于集群拓扑和位置设置，但通常可以认为这3个任务将并行运行。
q）假设在读取数据之后有一个窗口操作。窗口操作是跨分区还是在一个分区内应用窗口？
spark的基本模型和spark流的可传递性是，操作是在抽象（用于spark的rdd/数据集，用于spark流的dstream）上声明的，并且在执行级别，这些操作将以分布式方式应用，使用数据的本机分区。
（（我不确定这个问题对“跨分区”和“在一个分区内”的区别）。窗口将按分区保留。操作将根据它们自己的语义应用。例如，一个 map 操作将应用于每个分区，而 count 操作将首先应用于每个分区，然后合并为一个结果。））
关于伪代码：

val dstream = createDirectStream(..., Seconds(30))

dstream.window(Seconds(600)) // this does nothing as the new dstream is not referenced any further

val windowDstream = dstream.window(timePeriod) // this creates a new Windowed DStream based on the base DStream 

dstream.saveAsTextFiles() // this writes using the original streaming interval (30 seconds). It will write 1 logical file in the distributed file system with 3 partitions

windowDstream.saveAsTextFiles() // this writes using the windowed interval (600 seconds). It will write 1 logical file in the distributed file system with 3 partitions.

给定此代码（注意命名更改！）：

val dstream = createDirectStream(...)

dstream.action1()

val windowDStream = dstream.window(...)

windowDStream.action2()

对于action2，是否会使用同一组执行器（否则，必须再次从kafka读取数据-不好）？
在直接流模型的情况下，每个间隔的RDD不包含任何数据，只包含偏移量 (offset-start, offset-end) . 只有当一个动作被应用时，数据才会被读取。
因此，直接生产者上的加窗数据流只是一系列偏移： Window (1-3) = (offset1-start, offset1-end), (offset2-start, offset2-end), (offset3-start, offset3-end) . 当一个动作被应用到该窗口时，这些偏移量将从kafka中获取，并应用该操作。这并不是问题中暗示的“坏”。这避免了我们必须长时间存储中间数据，并允许我们保留数据上的操作语义。
所以，是的，数据会被再次读取，这是一件好事。

KafkaSpark流的窗口操作

1条答案

相关问题

热门标签

最新问答