Pandas通过多次和向前填充来扩大日期范围

klr1opcd 于 2022-09-21 发布在其他

关注(0)|答案(2)|浏览(182)

我有一个这样的 Dataframe ：

DATE       MIN_AMOUNT MAX_AMOUNT MIN_DAY MAX_DAY 
01/09/2022 10         20         1       2 
01/09/2022 15         25         4       5 
01/09/2022 30         50         7       10 
05/09/2022 10         20         1       2 
05/09/2022 15         25         4       5   
07/09/2022 15         25         4       5

我想用正向填充将数据框扩展到日期列之间的所有日期范围。所需的输出为：

DATE       MIN_AMOUNT MAX_AMOUNT MIN_DAY MAX_DAY 
01/09/2022 10         20         1       2 
01/09/2022 15         25         4       5 
01/09/2022 30         50         7       10 
02/09/2022 10         20         1       2 
02/09/2022 15         25         4       5 
02/09/2022 30         50         7       10 
03/09/2022 10         20         1       2 
03/09/2022 15         25         4       5 
03/09/2022 30         50         7       10 
04/09/2022 10         20         1       2 
04/09/2022 15         25         4       5 
04/09/2022 30         50         7       10 
05/09/2022 10         20         1       2 
05/09/2022 15         25         4       5 
06/09/2022 10         20         1       2 
06/09/2022 15         25         4       5 
07/09/2022 15         25         4       5

你能帮我解决这个问题吗？

pandas

来源：https://stackoverflow.com/questions/73784681/pandas-expand-date-range-with-multiple-times-and-forward-filling

2条答案

按热度按时间

clj7thdc1#

首先将值转换为日期时间，通过DataFrame.set_index和DataFrame.unstack创建帮助器计数器系列g以进行整形，然后将DataFrame.asfreq与method='ffill'一起使用并通过DataFrame.stack重新整形，通过DataFrame.droplevel移除帮助器级别，将DatetimeIndex转换为列，更改日期时间的格式，最后创建与原始DataFrame相同的数据类型：

df['DATE'] = pd.to_datetime(df['DATE'], dayfirst=True)
g = df.groupby('DATE').cumcount()
df = (df.set_index(['DATE',g])
        .unstack()
        .asfreq('D', method='ffill')
        .stack()
        .droplevel(-1)
        .reset_index()
        .assign(DATE = lambda x: x['DATE'].dt.strftime('%d/%m/%Y'))
        .astype(df.dtypes)
)
print (df)
         DATE  MIN_AMOUNT  MAX_AMOUNT  MIN_DAY  MAX_DAY
0  2022-01-09          10          20        1        2
1  2022-01-09          15          25        4        5
2  2022-01-09          30          50        7       10
3  2022-02-09          10          20        1        2
4  2022-02-09          15          25        4        5
5  2022-02-09          30          50        7       10
6  2022-03-09          10          20        1        2
7  2022-03-09          15          25        4        5
8  2022-03-09          30          50        7       10
9  2022-04-09          10          20        1        2
10 2022-04-09          15          25        4        5
11 2022-04-09          30          50        7       10
12 2022-05-09          10          20        1        2
13 2022-05-09          15          25        4        5
14 2022-06-09          10          20        1        2
15 2022-06-09          15          25        4        5
16 2022-07-09          15          25        4        5

展开查看全部

赞(0）回复(0）举报 2022-09-21

ehxuflar2#

几个合并应该会对此有所帮助，并且随着数据大小的增加应该仍然是高效的：

获取唯一的日期并从中构建新的 Dataframe ：

out = df.DATE.drop_duplicates()
dates = pd.date_range(out.min(), out.max(), freq='D')
dates = pd.DataFrame(dates, columns=['dates'])

合并dates和out，然后将结果与原始 Dataframe 合并：

(dates
.merge(
    out, 
    left_on='dates',
    right_on='DATE', 
    how = 'left')
# faster to fill on a Series than a Dataframe
.assign(DATE = lambda df: df.DATE.ffill())
.merge(
    df,
    on = 'DATE',
    how = 'left')
.drop(columns='DATE')
.rename(columns= {'dates':'DATE'})
)
         DATE  MIN_AMOUNT  MAX_AMOUNT  MIN_DAY  MAX_DAY
0  2022-09-01          10          20        1        2
1  2022-09-01          15          25        4        5
2  2022-09-01          30          50        7       10
3  2022-09-02          10          20        1        2
4  2022-09-02          15          25        4        5
5  2022-09-02          30          50        7       10
6  2022-09-03          10          20        1        2
7  2022-09-03          15          25        4        5
8  2022-09-03          30          50        7       10
9  2022-09-04          10          20        1        2
10 2022-09-04          15          25        4        5
11 2022-09-04          30          50        7       10
12 2022-09-05          10          20        1        2
13 2022-09-05          15          25        4        5
14 2022-09-06          10          20        1        2
15 2022-09-06          15          25        4        5
16 2022-09-07          15          25        4        5

展开查看全部

赞(0）回复(0）举报 2022-09-21

我来回答

Pandas通过多次和向前填充来扩大日期范围

2条答案

相关问题

热门标签

最新问答