pyspark2.4.0，使用readstream-python从kafka读取avro

brgchamk 于 2021-06-06 发布在 Kafka

关注(0)|答案(1)|浏览(623)

我正在尝试使用pyspark2.4.0阅读来自kafka的avro消息。
spark avro外部模块可以为读取avro文件提供以下解决方案：

df = spark.read.format("avro").load("examples/src/main/resources/users.avro") 
df.select("name", "favorite_color").write.format("avro").save("namesAndFavColors.avro")

但是，我需要阅读流avro消息。库文档建议使用from\u avro（）函数，该函数仅适用于scala和java。
有没有其他模块支持读取Kafka的avro消息流？

avro python apache-kafka apache-spark pyspark

来源：https://stackoverflow.com/questions/54693110/pyspark-2-4-0-read-avro-from-kafka-with-read-stream-python

1条答案

按热度按时间

2vuwiymt1#

您可以包括spark avro包，例如使用 --packages （调整版本以匹配Spark安装）：

bin/pyspark --packages org.apache.spark:spark-avro_2.11:2.4.0

并提供自己的 Package 材料：

from pyspark.sql.column import Column, _to_java_column 

def from_avro(col, jsonFormatSchema): 
    sc = SparkContext._active_spark_context 
    avro = sc._jvm.org.apache.spark.sql.avro
    f = getattr(getattr(avro, "package$"), "MODULE$").from_avro
    return Column(f(_to_java_column(col), jsonFormatSchema)) 

def to_avro(col): 
    sc = SparkContext._active_spark_context 
    avro = sc._jvm.org.apache.spark.sql.avro
    f = getattr(getattr(avro, "package$"), "MODULE$").to_avro
    return Column(f(_to_java_column(col)))

示例用法（从官方测试套件中采用）：

from pyspark.sql.functions import col, struct

avro_type_struct = """
{
  "type": "record",
  "name": "struct",
  "fields": [
    {"name": "col1", "type": "long"},
    {"name": "col2", "type": "string"}
  ]
}"""

df = spark.range(10).select(struct(
    col("id"),
    col("id").cast("string").alias("id2")
).alias("struct"))
avro_struct_df = df.select(to_avro(col("struct")).alias("avro"))
avro_struct_df.show(3)

+----------+
|      avro|
+----------+
|[00 02 30]|
|[02 02 31]|
|[04 02 32]|
+----------+
only showing top 3 rows

avro_struct_df.select(from_avro("avro", avro_type_struct)).show(3)

+------------------------------------------------+
|from_avro(avro, struct<col1:bigint,col2:string>)|
+------------------------------------------------+
|                                          [0, 0]|
|                                          [1, 1]|
|                                          [2, 2]|
+------------------------------------------------+
only showing top 3 rows

赞(0）回复(0）举报 2021-06-07

我来回答

pyspark2.4.0，使用readstream-python从kafka读取avro

1条答案

相关问题

热门标签

最新问答