我想回来 child
作为一个 Array[String]
从下面的Dataframe
root
|-- parent: string (nullable = false)
|-- child: array (nullable = true)
| |-- element: string (containsNull = true)
我目前正在做这项工作,它的工作数据较少
df.collect().flatMap(x => x.getAs[Seq[String]]("child")).mkString(",")
但有很多数据和Spark驱动程序正在运行 Out Of Memory
作为 collect()
是众所周知的。
从上面的Dataframe返回字符串数组的有效方法是什么?
1条答案
按热度按时间4sup72z81#
平面图如下:
将子项分解为一个新的字符串列:
如果需要创建另一列,子列之间用逗号分隔:
它给出: