我的总体目标是从每个数据点填充小时,以列出每个开始时间。为此,我知道我需要清理数据,使其格式一致。我一直尝试使用to_datetime和df [time]. dt. hour来提取所需的数据,但由于格式不一致,因此无法正常工作。
这是我正在处理的数据:
| 工作时间|
| - ------|
| 上午08:15-下午03:15|
| 星期三、星期四、星期五:上午7:45-下午3:05和星期六:上午7:45-下午2:07|
| 上午7时45分至下午3时|
| |
| 早上7:45-下午2:15|
我的当前代码:df ['工作时间']_dt = www.example.com_日期时间(df)pd.to_datetime(df)
我也试过:df ['开始时间']= df ['工作小时数']. dt.小时
我主要关心的是首先清理数据,最后我只想从每个工作场所提取开始时间,这样它看起来就像这样:
| 开始时间|
| - ------|
| 八个|
| 七|
| 九|
| 七|
1条答案
按热度按时间wqlqzqxt1#
这是一个在黑暗中射击,也许有人可以想出一个更好的答案,你可以使用正则表达式来替代模式,例如
这将使示例字符串变为7:45-3:05:7:45-2:07
然后,您可以拆分:提取第一个小时,但警告一句,这将返回列表[7,45 - 3,05,7,45 - 2,07],如果您只查找第一个小时,这是可以的
尝试使用regex来找到您希望与https://regex101.com/匹配的完美模式