我正在尝试使用pyspark2.4.0阅读来自kafka的avro消息。
spark avro外部模块可以为读取avro文件提供以下解决方案:
df = spark.read.format("avro").load("examples/src/main/resources/users.avro")
df.select("name", "favorite_color").write.format("avro").save("namesAndFavColors.avro")
但是,我需要阅读流avro消息。库文档建议使用from\u avro()函数,该函数仅适用于scala和java。
有没有其他模块支持读取Kafka的avro消息流?
1条答案
按热度按时间2vuwiymt1#
您可以包括spark avro包,例如使用
--packages
(调整版本以匹配Spark安装):并提供自己的 Package 材料:
示例用法(从官方测试套件中采用):