在流数据中为给定的messageid缓冲消息

js4nwp54 于 2021-06-07 发布在 Kafka

关注(0)|答案(1)|浏览(375)

用例：我有消息具有messageid，多个消息可以具有相同的消息id，这些消息存在于按messageid分区的流管道（如kafka）中，因此我确保所有具有相同messageid的消息都将进入同一分区。
所以我需要写一个作业，它应该缓冲消息一段时间（比如说1分钟），然后，将所有具有相同messageid的消息合并到一个大消息中。
我认为可以使用spark数据集和spark sql（或其他什么？）来完成。但是我找不到任何关于如何为给定的消息id存储消息一段时间，然后对这些消息进行聚合的示例/文档。

streaming apache-kafka spark-streaming apache-samza buffering

来源：https://stackoverflow.com/questions/48713751/buffer-messages-in-stream-data-for-a-given-messageid

1条答案

按热度按时间

ar7v8xwq1#

我想你要找的是Spark流。spark有一个kafka连接器，可以链接到spark流上下文。
下面是一个非常基本的示例，它将在1分钟的时间间隔内为给定主题集中的所有消息创建rdd，然后按消息id字段对它们进行分组（您的值序列化程序必须公开这样一个 getMessageId 方法，当然）。

SparkConf conf = new SparkConf().setAppName(appName);
JavaStreamingContext ssc = new JavaStreamingContext(conf, Durations.minutes(1));

Map<String, Object> params = new HashMap<String, Object>() {{
    put("bootstrap.servers", kafkaServers);
    put("key.deserializer", kafkaKeyDeserializer);
    put("value.deserializer", kafkaValueDeserializer);
}};

List<String> topics = new ArrayList<String>() {{
    // Add Topics
}};

JavaInputDStream<ConsumerRecord<String, String>> stream =
    KafkaUtils.createDirectStream(ssc,
        LocationStrategies.PreferConsistent(),
        ConsumerStrategies.<String, String>Subscribe(topics, params)
    );

stream.foreachRDD(rdd -> rdd.groupBy(record -> record.value().getMessageId()));

ssc.start();
ssc.awaitTermination();

在流式api中还有其他几种方法可以对消息进行分组。有关更多示例，请参阅文档。

赞(0）回复(0）举报 2021-06-07

我来回答

在流数据中为给定的messageid缓冲消息

1条答案

相关问题

热门标签

最新问答