已关闭,此问题需要details or clarity。它目前不接受回答。
**想改善这个问题吗?**通过editing this post添加详细信息并澄清问题。
14天前关闭
Improve this question
样本数据:
| 创建时间(_A)|更新_at| ID|事件ID|状态ID|
| --|--|--|--|--|
| 2022-11-18 9:46:21| 2022-11-18 9:46:21| 1 | 76 | 1 |
| 2022-11-18 9:46:22| 2022-11-18 9:46:22| 2 | 78 | 4 |
| 2022-11-18 9:46:22| 2022-11-18 9:56:22| 3 | 78 | 5 |
| 2022-11-18 9:46:23| 2022-11-18 9:46:23| 4 | 80 | 4 |
| 2022-11-18 9:46:23| 2022-11-18 9:46:23| 5 | 81 | 4 |
| 2022-11-18 9:46:24| 2022-11-18 9:46:24| 6 | 82 | 6 |
| 2022-11-18 9:46:24| 2022-11-18 9:46:24| 7 | 83 | 7 |
| 2022-11-18 9:47:57| 2022-11-18 9:47:57| 8 | 00 | 2 |
| 2022-11-18 9:47:57| 2022-11-18 9:47:57| 9 | 01 | 4 |
| 2022-11-18 9:47:58| 2022-11-18 9:47:58| 10 | 03 | 5 |
| 2023-03-24 21:22:34| 2023-03-24 21:22:34| 11 | 48 | 6 |
| 2023-03-24 21:22:34| 2023-03-24 21:22:35| 12 | 48 | 8 |
| 2023-03-24 21:22:34| 2023-03-24 21:22:37| 13 | 48 | 7 |
问题:status_id [4,5,6,7,8]
=COMPLETED状态。
我要number of events that went to COMPLETED state grouped by date
但是,如果您看到事件78和48,则分别从4->5和6->8->7更改。由于这些都是从一个已完成状态转换到另一个已完成状态,我希望它们被计为一个事件。
预期结果:
| 更新日期|计数|
| --|--|
| 2022-11-18| 7 |
| 2023-03-24| 1 |
- SQL可以做到这一点吗?
- 如果不是SQL,如果我以某种方式将上面的表提取为df,我可以用pandas/panderrames/spark来做这件事吗?
1条答案
按热度按时间8dtrkrch1#
这里有一个pandas方法:
那么
complete_events
是:并且这样的事件的数量正好是
len(complete_events)
,在这种情况下是8
。更新:现在对于每个日期的完整事件数量,您可以执行以下操作: