pandas panda groupby重采样的输出不一致，第一个时间条柱中有缺失值

ryhaxcpt 于 2023-01-07 发布在其他

关注(0)|答案(2)|浏览(136)

我发现输出与panda groupby重采样行为不一致。
取这个 Dataframe ，其中类别A具有第一天和第二天的样本，类别B仅具有第二天的样本：

df1 = pd.DataFrame(index=pd.DatetimeIndex(
    ['2022-1-1 1:00','2022-1-2 1:00','2022-1-2 1:00']),
    data={'category':['A','A','B']})

# Output:
#                    category
#2022-01-01 01:00:00        A
#2022-01-02 01:00:00        A
#2022-01-02 01:00:00        B

当我使用groupby重采样时，我得到了一个在类别和时间上具有多索引的Series：

res1 = df1.groupby('category').resample('1D').size()

#Output: 
#category            
#A         2022-01-01    1
#          2022-01-02    1
#B         2022-01-02    1
#dtype: int64

但是如果我再添加一个数据点，这样B在第1天有一个样本，返回值是一个 Dataframe ，类别中有一个索引，列对应于时间箱：

df2 = pd.DataFrame(index=pd.DatetimeIndex(
    ['2022-1-1 1:00','2022-1-2 1:00','2022-1-2 1:00','2022-1-1 1:00']),
    data={'category':['A','A','B','B']})

res2 = df2.groupby('category').resample('1D').size()

# Output:
#          2022-01-01  2022-01-02
# category                        
# A                  1           1
# B                  1           1

这是预期的行为吗？我在Pandas1. 4. 2中重现了这个行为，但找不到bug报告。

pandas

来源：https://stackoverflow.com/questions/71889996/inconsistent-output-for-pandas-groupby-resample-with-missing-values-in-first-tim