如何将复杂的嵌套JSON结构转换为Spark DataFrame中的多列

nc1teljy 于 2023-01-31 发布在 Apache

关注(0)|答案(1)|浏览(220)

我正在学习Scala，并且尝试从一个大型嵌套json文件中筛选出一些列，以使其成为一个DataFrame。

{
  “meta”: 
    {“a”: 1, b: 2”}    // I want to ignore meta
  “objects”:
  [
    {
         “caucus”: “Progressive”,
     “person” : 
         {
          “name”: “Mary”,
          “party”: “Green Party”,
          “age”: 50,
          “gender”: “female” // etc..
         }
    }, // etc.
   ] 
}

因此，数据看起来像这样，用spark读入。

val df = spark.read.json("file")
    df.show()
+--------------------+--------------------+
|                meta|             objects|
+--------------------+--------------------+
|[limit -> 100.0, ...|[[, [116.0, 117.0...|
+--------------------+--------------------+

而不是这样，我想要一个DataFrame与列：姓名|党|核心小组。
我已经对explode（）进行了一些修改，并将该模式重新生成为StructType（），但不确定通常如何处理这样的嵌套结构。

apache-spark

来源：https://stackoverflow.com/questions/75288662/how-to-translate-a-complex-nested-json-structure-into-multiple-columns-in-a-spar

1条答案

按热度按时间

ddhy6vgd1#

没有通用的方法来处理它，因为它当然取决于数据的形状。在您的例子中，您希望分解一个数组，这将创建一个名为col的列，该列将包含struct。然后，您可以使用点标记法访问struct中的字段，因此，要提取您要求的字段，您可以执行以下操作：

df.select(explode_outer($"objects")).
  select(
     $"col.caucus", 
     $"col.person.name",
     $"col.person.party").show

+-----------+----+-----------+
|     caucus|name|      party|
+-----------+----+-----------+
|Progressive|Mary|Green Party|
+-----------+----+-----------+

赞(0）回复(0）举报 2023-01-31

我来回答

如何将复杂的嵌套JSON结构转换为Spark DataFrame中的多列

1条答案

相关问题

热门标签

最新问答