pandas pd.DataFrame如何在忽略某些单元格中的“NA”字符串时计算mean()

kr98yfug 于 2023-02-20 发布在其他

关注(0)|答案(3)|浏览(228)

我有一个 Dataframe ，我想计算A和B的列平均值，A和B中的一些行是字符串“NA”，而其他行是numpy.float64如何计算列A和B，同时忽略这些“NA”？我试图设置numeric_only=True，然后它只返回我列C和ID。我希望A和B的平均值是6.6和2.6
Dataframe （{“id”：（1，2，3，4，5，6），“名称”：（“苹果”、“苹果”、“甜瓜”、"甜瓜"、“橙子”、“橙子”），“A”：（1、2、“不适用”、20、5、5）、“B”：（1、5、4、2、“不适用”、1）、“C”：（一、五、四、二、三、一）}）
| 身份证|姓名|A类|B|C级|
| - ------|- ------|- ------|- ------|- ------|
| 1个|苹果|1个|1个|1个|
| 第二章|苹果|第二章|五个|五个|
| 三个|瓜|“不适用”|四个|四个|
| 四个|瓜|二十个|第二章|第二章|
| 五个|橙子|五个|“不适用”|三个|
| 六个|橙子|五个|1个|1个|

pandas

来源：https://stackoverflow.com/questions/75491089/pd-dataframe-how-to-calculate-mean-while-ignore-na-string-in-some-cell

3条答案

按热度按时间

au9on6nz1#

试试这个：

import numpy as np

fruit.replace('NA', np.nan, inplace=True)
fruit['A'].mean()

赞(0）回复(0）举报 2023-02-20

5vf7fwbs2#

由于mean可以跳过NaN值，因此可以使用to_numeric并设置errors="coerce"：
错误{“忽略”、“引发”、“强制”}，默认值为“引发”

如果为“raise”，则无效解析将引发异常。
*如果为coerce，则无效解析将设置为NaN。
如果“ignore”，则无效分析将返回输入。

fruit[["A", "B"]].apply(pd.to_numeric, errors="coerce").mean()

输出：

A    6.6
B    2.6
dtype: float64

赞(0）回复(0）举报 2023-02-20

myzjeezk3#

fruit['A'].replace('NA', 0).sum() / sum(fruit['A'].ne('NA'))
# 6.6

fruit['B'].replace('NA', 0).sum() / sum(fruit['B'].ne('NA'))
# 2.6

因此：

fruit[['A', 'B']].apply(lambda c:c.replace('NA', 0).sum() / sum(c.ne('NA')))
A    6.6
B    2.6
dtype: float64

赞(0）回复(0）举报 2023-02-20

我来回答

pandas pd.DataFrame如何在忽略某些单元格中的“NA”字符串时计算mean()

3条答案

相关问题

热门标签

最新问答