使用spark结构化流媒体读取protobuf kafka消息

tquggr8v 于 2021-06-07 发布在 Kafka

关注(0)|答案(1)|浏览(370)

有没有可能用spark结构化流媒体从Kafka那里读取protobuf消息？

apache-kafka apache-spark apache-spark-sql spark-structured-streaming protocol-buffers

来源：https://stackoverflow.com/questions/51980912/read-protobuf-kafka-message-using-spark-structured-streaming

1条答案

按热度按时间

fnatzsnv1#

方法1

sparkSession.udf().register("deserialize", getDeserializer(), schema);

    DataStreamReader dataStreamReader = sparkSession.readStream().format("kafka");

    for (Map.Entry<String, String> kafkaPropEntry : kafkaProps.entrySet()) {
        dataStreamReader.option(kafkaPropEntry.getKey(), kafkaPropEntry.getValue());
    }

    Dataset<Row> kafkaRecords =
            dataStreamReader.load()
                    .selectExpr("deserialize(value) as event").select("event.*");

方法2

final StructType schema = getSchema();

    DataStreamReader dataStreamReader = sparkSession.readStream().format("kafka");

    for (Map.Entry<String, String> kafkaPropEntry : kafkaProps.entrySet()) {
        dataStreamReader.option(kafkaPropEntry.getKey(), kafkaPropEntry.getValue());
    }

    Dataset<Row> kafkaRecords = dataStreamReader.load()
            .map(row -> getOutputRow((byte[]) row.get(VALUE_INDEX)), RowEncoder.apply(schema))

方法1有一个缺陷，因为反序列化方法被多次调用（对于事件中的evert列）https://issues.apache.org/jira/browse/spark-17728. 方法2使用map方法直接将protobufMap到行。

赞(0）回复(0）举报 2021-06-07

我来回答

使用spark结构化流媒体读取protobuf kafka消息

1条答案

方法1

方法2

相关问题

热门标签

最新问答