spark structed streaming从kafka读取嵌套的json并将其展平

66bbxpm5 于 2021-05-27 发布在 Spark

关注(0)|答案(2)|浏览(424)

json类型数据：

{
    "id": "34cx34fs987",
    "time_series": [
        {
            "time": "2020090300: 00: 00",
            "value": 342342.12
        },
        {
            "time": "2020090300: 00: 05",
            "value": 342421.88
        },
        {
            "time": "2020090300: 00: 10",
            "value": 351232.92
        }
    ]
}

我从Kafka那里得到了json：

spark = SparkSession.builder.master('local').appName('test').getOrCreate()
df = spark.readStream.format("kafka")...

如何操作df获得如下所示的Dataframe：

id             time          value
34cx34fs987  20200903 00:00:00  342342.12
34cx34fs987  20200903 00:00:05  342421.88
34cx34fs987  20200903 00:00:10  351232.92

apache-kafka apache-spark

来源：https://stackoverflow.com/questions/63737275/spark-structed-streaming-read-nested-json-from-kafka-and-flatten-it

2条答案

按热度按时间

bejyjqdl1#

使用scala：

如果将模式定义为

val schema: StructType = new StructType()
    .add("id", StringType)
    .add("time_series", ArrayType(new StructType()
      .add("time", StringType)
      .add("value", DoubleType)
    ))

然后可以使用sparksql内置函数 from_json 以及 explode ```
import org.apache.spark.sql.functions._
import spark.implicits._

val df1 = df
.selectExpr("CAST(value as STRING) as json")
.select(from_json('json, schema).as("data"))
.select(col("data.id").as("id"), explode(col("data.time_series")).as("time_series"))
.select(col("id"), col("time_series.time").as("time"), col("time_series.value").as("value"))

您的输出将是

+-----------+-----------------+---------+
|id |time |value |
+-----------+-----------------+---------+
|34cx34fs987|20200903 00:00:00|342342.12|
|34cx34fs987|20200903 00:00:05|342421.88|
|34cx34fs987|20200903 00:00:10|351232.92|
+-----------+-----------------+---------+

展开查看全部

赞(0）回复(0）举报 2021-05-27

qrjkbowd2#

pyspark中的示例代码

df2 = df.select("id", f.explode("time_series").alias("col"))
df2.select("id", "col.time", "col.value").show()

赞(0）回复(0）举报 2021-05-27

我来回答

spark structed streaming从kafka读取嵌套的json并将其展平

2条答案

使用scala：

相关问题

热门标签

最新问答