Kafka flink流式作业是否在作业运行之间保持其键值状态？

nuypyhwy 于 2022-11-21 发布在 Apache

关注(0)|答案(1)|浏览(160)

我们的用例是我们想使用 flink 流来执行去重复任务，它从源（ kafka 主题）读取数据，并将唯一记录写入 hdfs 文件接收器。 kafka 主题可能有重复数据，可以使用复合键（ adserver _ id ，记录的 unix _ timestamp ）来识别这些数据。
所以我决定使用 flink 键控状态流来实现重复数据删除。

val messageStream: DataStream[String] = env.addSource(flinkKafkaConsumer)

messageStream
  .map{
    record =>
      val key = record.adserver_id.get + record.event_timestamp.get
      (key,record)
  }
  .keyBy(_._1)
  .flatMap(new DedupDCNRecord())
  .map(_.toString)
  .addSink(sink)

  // execute the stream
  env.execute(applicationName)
}

中的每一个
下面是使用 flink 中的 value state 执行重复数据消除的代码。

class DedupDCNRecord extends RichFlatMapFunction[(String, DCNRecord), DCNRecord] {
  private var operatorState: ValueState[String] = null

  override def open(configuration: Configuration) = {
    operatorState = getRuntimeContext.getState(
      DedupDCNRecord.descriptor
    )
  }

  @throws[Exception]
  override def flatMap(value: (String,DCNRecord), out: Collector[DCNRecord]): Unit = {

    if (operatorState.value == null) { // we haven't seen the element yet
      out.collect(value._2)
      // set operator state to true so that we don't emit elements with this key again
      operatorState.update(value._1)
    }
  }
}

格式
虽然只要流作业正在运行，并通过 valueState 维护唯一键列表和执行重复数据删除，这种方法就可以正常工作。（在上次运行作业时看到的唯一键）（仅保留当前运行的唯一键）并让记录通过，这些记录已在作业的上一次运行中处理。是否有方法，我们可以强制 flink 来维护它的 valueState （ unique _ keys ）。感谢您的帮助。

apache-kafka

来源：https://stackoverflow.com/questions/74332041/does-flink-streaming-job-maintain-its-keyed-value-state-between-job-runs

1条答案

按热度按时间

fiei3ece1#

这要求您在关闭作业之前捕获状态的快照，然后从该快照重新启动：
1.使用保存点执行停止，以关闭当前作业，同时获取其状态的快照。
1.使用保存点作为起点重新启动。
如需逐步教育课程，请参阅 Flink Operations Playground 中的升级和重新调整工作。观察失败和复原的章节也与此处相关。

赞(0）回复(0）举报 2022-11-21

我来回答

Kafka flink流式作业是否在作业运行之间保持其键值状态？

1条答案

相关问题

热门标签

最新问答