我有一个 parquet 文件作为源,我加载了该 parquet 文件使用PySpark笔记本,如下所示:
df_Employee = spark.read.parquet(<filename>)
df_Employee .createOrReplaceTempView("employee_data")
这张table是这样的
Employee Table:
-Name
-Salary
-Company
-Address (datatype=string)
--street.name
--street.number
--postalcode
-JoiningDate
我有下面的代码,但我在如何street.name从上面的SQL表中提取www.example.com & street.number上遇到了麻烦,下面是我的代码
df=spark.sql(f'''
select Name, Salary, Company, json_extract(Address,'$."street.name"') as StreetName
from employee_data
''')
但是json_extract(Address,'$.”street.name“')作为街道名称抛出错误。如何提取此嵌套json字段?
1条答案
按热度按时间lvmkulzt1#
我根据员工表在我的环境中创建了相同的样本数据框: