pyspark 为嵌套 Json 创建 Spark 结构化流模式

xlpyo6sf 于 2022-11-01 发布在 Spark

关注(0)|答案(1)|浏览(179)

我想为我的结构化流作业定义模式（在 python 中），但我无法以我想要的方式获得数据帧模式。
对于本 json

{
    "messages": [{
        "IdentityNumber": 1,
        "body": {
            "Alert": "This is the payload"
        },
        "regionNumber": 11000002
    }]
}

中的每一个
我使用下面的代码作为模式

schema1 = StructType([StructField("messages", ArrayType(   
    StructType( 
        [
            StructField("body", StructType( [StructField("Alert", StringType())]) )
        ]
    )
    ,True))])

格式
但我得到的架构是
df - 〉消息 - 〉正文 - 〉警报
当我想要这样的东西时
df - 〉警报
例如，一个数据帧，它有一个名为 alert 的列，其中包含所有以 alert 形式出现的字符串消息。我应该在我定义的模式中做什么更改？

pyspark

来源：https://stackoverflow.com/questions/71473636/creating-a-spark-structured-streaming-schema-for-nested-json

1条答案

按热度按时间

w6mmgewl1#

如果您正在读取与此架构相关的数据，则此架构是正确的。
如果你需要在读取上述schema中的json后提取嵌套字段，只需要使用点标记即可，例如：

df.select(col("messages[0].body.alert"))

如果你需要操作和分解所有的数组元素，请查看这篇文章，它解释了你必须做的不同选择：https://docs.databricks.com/_static/notebooks/transform-complex-data-types-scala.html
上面的答案和本文一样是在scala中，但是大多数spark sql API都可以很容易地移植到pySpark。

赞(0）回复(0）举报 2022-11-01

我来回答

pyspark 为嵌套 Json 创建 Spark 结构化流模式

1条答案

相关问题

热门标签

最新问答

pyspark 为 嵌套 Json 创建 Spark 结构 化 流 模式

1条答案

相关问题

热门标签

最新问答

pyspark 为嵌套 Json 创建 Spark 结构化流模式