解析spark中的嵌套json并应用自定义模式

oxf4rvwz 于 2021-05-29 发布在 Spark

关注(0)|答案(1)|浏览(564)

我有下面格式的一行嵌套json

{"2018-10-09": {"CAD": 1.4861, "JPY": 129.45, "NZD": 1.7784, "USD": 1.1435}, "2018-11-30": {"CAD": 1.5116, "JPY": 128.99, "NZD": 1.6556, "USD": 1.1359}}

这只是json的一部分，实际的json非常大。
我需要使用spark读取这个json并做一些预处理。
这是密码

df = spark.read.format("json") \
  .option("inferSchema", "true") \
  .option("header", 'false') \
  .option("sep", ",") \
  .load(file_location)
display(df)

架构如下所示

我希望数据看起来像这样

date        CAD   JPY     NZD   USD
2018-01-02  1.51  135.35  1.69  1.2
2018-01-03  1.50  134.97  1.69  1.209

所以我的新模式应该包含5个字段。
我试着做到如下

df1=df.select("2018-12-27.CAD","2018-12-27.JPY","2018-12-27.NZD","2018-12-27.USD")

但是它需要选择每个日期值，并且有100个日期值。这是痛苦和耗时的。
做这件事的有效方法是什么？

JSON apache-spark schema

来源：https://stackoverflow.com/questions/64435740/parsing-nested-json-in-spark-and-imposing-custom-schema

1条答案

按热度按时间

jei2mxaa1#

下面的代码是 scala ，您可以将此转换为 python .

scala> df.show(false)
+--------------------------------+--------------------------------+
|2018-10-09                      |2018-11-30                      |
+--------------------------------+--------------------------------+
|[1.4861, 129.45, 1.7784, 1.1435]|[1.5116, 128.99, 1.6556, 1.1359]|
+--------------------------------+--------------------------------+

scala> val columns = df.columns

scala> 
val colExp = 
array(
    columns
    .map(c => 
        List(
            lit(c).as("date"),
            col(s"${c}.*")
        )
    )
    .map(l => struct(l:_*)):_*
)

scala> df.select(explode(colExp).as("data")).select("data.*").show(false)
+----------+------+------+------+------+
|date      |CAD   |JPY   |NZD   |USD   |
+----------+------+------+------+------+
|2018-10-09|1.4861|129.45|1.7784|1.1435|
|2018-11-30|1.5116|128.99|1.6556|1.1359|
+----------+------+------+------+------+

解释

val colExp = 
array(
    columns
    .map(c => List(lit(c).as("date"),col(s"${c}.*"))) // This one will create `2018-10-09` as `date`, `2018-10-09.*`
    .map(l => struct(l:_*)):_* // This will add above columns inside struct(_)
)

上面的代码会给你下面的输出。

array(
    struct(
        lit("2018-10-09").as(`date`), 
        col("2018-10-09.*")
    ), 
    struct(
        lit("2018-11-30").as(`date`), 
        col("2018-11-30.*")
    )
)

一旦你有了以上的输出，你就很容易做到 explode 数组提取（&E） struct 柱。

展开查看全部

赞(0）回复(0）举报 2021-05-20

我来回答

解析spark中的嵌套json并应用自定义模式

1条答案

相关问题

热门标签

最新问答