在Databricks中,我使用PySpark处理一个DataFrame,它有以下一列,其中每一行都是一个包含多个字典的列表:
我想解压缩/展开此列,以便每个字典值都有一个单独的列。但是,问题是此列的数据类型是字符串。如何解压缩此列?
以下是一个值的示例,以供参考:
[{“长名称”:“索菲亚”,“短名称”:“索非亚”,“类型”:[“地点”,“政治”]},{“长名称”:“索非亚市省”,“短名称”:“索非亚市省”,“类型”:[“行政区域级别1”,“政治”]},{“长名称”:“保加利亚”,“短名称”:“BG”,“类型”:[“国家”,“政治”]}]
1条答案
按热度按时间qgelzfjb1#
使用
from_json
并提供模式,可以将字符串列转换为结构体数组。然后,可以执行inline
将其分解为列。