spark将proto字节解组为可读格式

fnatzsnv 于 2021-07-12 发布在 Spark

关注(0)|答案(1)|浏览(391)

我的spark应用程序从kafka接收二进制数据。数据以字节原始信息的形式发送给Kafka。原始信息是：

message Any {
  string type_url=1;
  bytes value=2;
}

使用scalapb库，我可以将任意消息反序列化为其原始格式。如何将值从字节反序列化为可读格式？serializationutils不起作用。这就是反序列化后any消息的外观。


# +-----------------------------------------|

# | type_url           | value              |

# +-----------------------------------------|

# |type.googleapis.c...|[0A 8D D8 04 0A 1...|

# +-----------------------------------------|

值仍为字节格式。使用serializationutils反序列化后，数据不正确。


# +-----------------+

# |value            |

# +-----------------+

# |2020-09-04T10:...|

# +-----------------+

还有别的选择吗？有没有办法将字节反序列化为字符串、结构或字符串json？
我使用带有udf的scalapbs示例将字节反序列化到any消息中。

val parseCloud = ProtoSQL.udf { bytes: Array[Byte] => CloudEvent.parseFrom(bytes) }

字节值带有serializationutils的udf如下所示。

val parseBytes = ProtoSQL.udf {bytes: Array[Byte] => deserialize(bytes)}

scala apache-kafka apache-spark protocol-buffers scalapb

来源：https://stackoverflow.com/questions/66659105/spark-unmarshal-proto-bytes-into-readable-format

1条答案

按热度按时间

bz4sfanl1#

如果您知道 Any ，可以使用unpack方法反序列化。

val unpackAny = ProtoSQL.udf { any: com.google.protobuf.any.Any => any.unpack[MyMessage] }

赞(0）回复(0）举报 2021-07-12

我来回答

spark将proto字节解组为可读格式

1条答案

相关问题

热门标签

最新问答