使用Pandas在分组列之间的逐行累计平均值

y0u0uwnf 于 2022-09-18 发布在 Java

关注(0)|答案(1)|浏览(231)

我想创建多个列，以显示分组列的逐行累积平均值。以下是一些样本数据：

import pandas as pd

data = [[1, 4, 6, 10, 15, 40, 90, 100], [2, 5, 3, 11, 25, 50, 90, 120], [3, 7, 9, 14, 35, 55, 100, 120]]
df = pd.DataFrame(data, columns=['a1', 'a2', 'a3', 'a4', 'b1', 'b2', 'b3', 'b4'])

   a1  a2  a3  a4  b1  b2   b3   b4
0   1   4   6  10  15  40   90  100
1   2   5   3  11  25  50   90  120
2   3   7   9  14  35  55  100  120

我希望生成如下所示的新专栏：

新列a1_2按行计算列a1和a2的平均值。
新列a1_3按列a1、a2和a3的行的平均值计算。
新列a1_4按列a1、a2、a3和a4的行的平均值计算。

对于包含b的分组列也应该发生同样的情况。当然，您可以手动执行此操作，但当您的变量太多时，这样做并不理想。以下是预期输出：

df['a1_2'] = df[['a1', 'a2']].mean(axis=1)
df['a1_3'] = df[['a1', 'a2', 'a3']].mean(axis=1)
df['a1_4'] = df[['a1', 'a2', 'a3', 'a4']].mean(axis=1)
df['b1_2'] = df[['b1', 'b2']].mean(axis=1)
df['b1_3'] = df[['b1', 'b2', 'b3']].mean(axis=1)
df['b1_4'] = df[['b1', 'b2', 'b3', 'b4']].mean(axis=1)

   a1  a2  a3  a4  b1  b2   b3   b4  a1_2      a1_3  a1_4  b1_2       b1_3   b1_4
0   1   4   6  10  15  40   90  100   2.5  3.666667  5.25  27.5  48.333333  61.25 
1   2   5   3  11  25  50   90  120   3.5  3.333333  5.25  37.5  55.000000  71.25 
2   3   7   9  14  35  55  100  120   5.0  6.333333  8.25  45.0  63.333333  77.50

所以我想知道有没有某种自动的方法来做这件事？

python

来源：https://stackoverflow.com/questions/73761571/row-wise-cumulative-mean-across-grouped-columns-using-pandas

1条答案

按热度按时间

nxowjjhe1#

IIUC，您可以使用wide_to_long重塑，执行groupby.rolling，然后执行unstack并展平多索引：

df.join(pd
   .wide_to_long(df.reset_index(), stubnames=['a', 'b'], i='index', j='n')
   .groupby(level='index').expanding().mean()
   .loc[lambda d: d.index.get_level_values('n')>1]
   .droplevel(0).unstack('n')
   .pipe(lambda d: d.set_axis(d.columns.map(lambda x: f'{x[0]}1_{x[1]}'), axis=1))
)

输出：

a1  a2  a3  a4  b1  b2   b3   b4  a1_2      a1_3  a1_4  b1_2       b1_3   b1_4
0   1   4   6  10  15  40   90  100   2.5  3.666667  5.25  27.5  48.333333  61.25
1   2   5   3  11  25  50   90  120   3.5  3.333333  5.25  37.5  55.000000  71.25
2   3   7   9  14  35  55  100  120   5.0  6.333333  8.25  45.0  63.333333  77.50

赞(0）回复(0）举报 2022-09-18

我来回答

使用Pandas在分组列之间的逐行累计平均值

1条答案

相关问题

热门标签

最新问答