我有生产数据,有38种不同的状态,范围从0 - 5000,i。e 3000、3100、3500。与每个状态沿着的是状态日期、型号和收货地点。
我需要计算出,平均而言,一个项目从状态3000到5000(已交付)需要多长时间,假设它是项目M到目的地X。不仅仅是状态3000到4000,而是所有37种不同的状态(在交付之前),这样我就可以建立一个预测模型来预测未来的交付时间。
数据集:
| ID|状态|状态日期“%m/%d/%Y”|型号|运输至地点|
| --------------|--------------|--------------|--------------|--------------|
| ABC123|三千|2023年1月1日|M|X|
| ABC123|五千|2023年1月5日|M|X|
| ABC124|二千年|2022年10月5日|N|Y轴|
| ABC124|五千|2022年5月15日|N|Y轴|
ABC124 2500 12/10/2023 M X
这就是我想要的结果:
| 状态|型号|运输至地点|达到状态所需天数5000|
| --------------|--------------|--------------|--------------|
| 三千|M|X|二十|
| 三千一百|M|X|十五岁|
| 三千三百|N|Y轴|10个|
| 小行星3400|N|Y轴|五|
1条答案
按热度按时间ndh0cuux1#
试试这个:
从技术上讲,我们不需要
if
语句。也就是说,这也起作用:我把它包括在上面,因为我不确定它是否有意义有多个条件(e。例如,both 3000/5000必须存在),以便返回非
NA
值。有很多方法可以实现这个逻辑。数据(增加到至少包括一个5000):