要求:
我想创建一个数据框出一列(现有的数据框)。该列的值是多json列表。
问题:
由于json没有固定的模式,我无法使用from_json
函数,因为它在解析列之前需要模式。
示例
| Column A | Column B |
| 1 | [{"id":"123","phone":"124"}] |
| 3 | [{"id":"456","phone":"741"}] |
预期产出:
| id | phone|
| 123 | 124 |
| 456 | 741 |
对此有何想法?
2条答案
按热度按时间5lhxktic1#
尝试使用SparkSQL分解“B列”数组
输出低于;
0ejtzxu12#
将其转换为一个rdd,然后读取为json。为了测试,我删除了第二行中的id元素。