我有一些数据如下:
patient_id lab_value
1, 10
1, 3
2, 1
2, 4
3, 5
3, 10
3, 2
我想做的是找到每个患者id分组的最大实验室值,然后最终计算实验室值和最大值之间的差异,如下所示。
patient_id lab_value lab_diff
1, 10, 0
1, 3, 7 (10 - 3)
2, 1, 3
2, 4, 0
3, 5, 5 (10 - 5)
3, 10, 0
3, 2, 8 (10 - 2)
我该怎么做?
我有一些数据如下:
patient_id lab_value
1, 10
1, 3
2, 1
2, 4
3, 5
3, 10
3, 2
我想做的是找到每个患者id分组的最大实验室值,然后最终计算实验室值和最大值之间的差异,如下所示。
patient_id lab_value lab_diff
1, 10, 0
1, 3, 7 (10 - 3)
2, 1, 3
2, 4, 0
3, 5, 5 (10 - 5)
3, 10, 0
3, 2, 8 (10 - 2)
我该怎么做?
1条答案
按热度按时间e0bqpujr1#
步骤
加载数据
按id分组
获取每个id的最大实验室值
用最大值区分每个组
基于id以最大实验室值联接数据
从最大值-实验室值生成差异值
Pig手稿
结果