我想做一些类似于array_max()
的事情,但我需要返回另一个不用于排序的字段。
下面是列中的数据,我们称之为df.idInfo
:
[
{
"accountId": 123,
"lastUpdated": {
"sourceSystemTimestamp": "2023-01-01 07:44:58.000",
"userId": null
},
"individualNumber": 33333
},
{
"accountId": 456,
"lastUpdated": {
"sourceSystemTimestamp": "2023-02-12 18:44:58.000",
"userId": null
},
"individualNumber": 22222
},
{
"accountId": 789,
"lastUpdated": {
"sourceSystemTimestamp": "2023-03-23 23:44:58.000",
"userId": null
},
"individualNumber": 11111
}
]
字符串
我想从具有最新值lastUpdated.sourceSystemTimestamp
的元素中获取individualNumber
。
有没有什么有效的方法可以做到这一点?有没有Python或Pyspark的内置函数可以利用?
1条答案
按热度按时间cunj1qz11#
你可以使用
array_max
来获取sourceSystemTimestamp
,并使用它来过滤同一个数组以获取相应的individualNumber
。字符串