使用spark结构化流媒体读取protobuf kafka消息

tquggr8v  于 2021-06-07  发布在  Kafka
关注(0)|答案(1)|浏览(369)

有没有可能用spark结构化流媒体从Kafka那里读取protobuf消息?

fnatzsnv

fnatzsnv1#

方法1

sparkSession.udf().register("deserialize", getDeserializer(), schema);

    DataStreamReader dataStreamReader = sparkSession.readStream().format("kafka");

    for (Map.Entry<String, String> kafkaPropEntry : kafkaProps.entrySet()) {
        dataStreamReader.option(kafkaPropEntry.getKey(), kafkaPropEntry.getValue());
    }

    Dataset<Row> kafkaRecords =
            dataStreamReader.load()
                    .selectExpr("deserialize(value) as event").select("event.*");

方法2

final StructType schema = getSchema();

    DataStreamReader dataStreamReader = sparkSession.readStream().format("kafka");

    for (Map.Entry<String, String> kafkaPropEntry : kafkaProps.entrySet()) {
        dataStreamReader.option(kafkaPropEntry.getKey(), kafkaPropEntry.getValue());
    }

    Dataset<Row> kafkaRecords = dataStreamReader.load()
            .map(row -> getOutputRow((byte[]) row.get(VALUE_INDEX)), RowEncoder.apply(schema))

方法1有一个缺陷,因为反序列化方法被多次调用(对于事件中的evert列)https://issues.apache.org/jira/browse/spark-17728. 方法2使用map方法直接将protobufMap到行。

相关问题