pandas 查找给定列的百分位统计信息

brqmpdu1 于 2023-04-10 发布在其他

关注(0)|答案(6)|浏览(249)

我有一个pandas数据框架my_df，在这里我可以找到给定列的mean（），median（），mode（）：

my_df['field_A'].mean()
my_df['field_A'].median()
my_df['field_A'].mode()

我想知道是否有可能找到更详细的统计数据，如90百分位？谢谢！

pandas

来源：https://stackoverflow.com/questions/39581893/find-percentile-stats-of-a-given-column

6条答案

按热度按时间

y3bcpkx11#

可以使用pandas.DataFrame.quantile()函数。
如果你查看quantile()的API，你会看到它需要一个参数来进行插值。如果你想要一个位于数据中两个位置之间的分位数：
“线性”、“较低”、“较高”、“中点”或“最近”。
默认情况下，它执行线性插值。
这些插值方法在percentile的Wikipedia文章中讨论

import pandas as pd
import numpy as np

# sample data 
np.random.seed(2023)  # for reproducibility
data = {'Category': np.random.choice(['hot', 'cold'], size=(10,)),
        'field_A': np.random.randint(0, 100, size=(10,)),
        'field_B': np.random.randint(0, 100, size=(10,))}
df = pd.DataFrame(data)

df.field_A.mean()  # Same as df['field_A'].mean()
# 51.1

df.field_A.median() 
# 50.0

# You can call `quantile(i)` to get the i'th quantile,
# where `i` should be a fractional number.

df.field_A.quantile(0.1)  # 10th percentile
# 15.6

df.field_A.quantile(0.5)  # same as median
# 50.0

df.field_A.quantile(0.9)  # 90th percentile
# 88.8

df.groupby('Category').field_A.quantile(0.1)
#Category
#cold    28.8
#hot      8.6
#Name: field_A, dtype: float64

`df`

Category  field_A  field_B
0     cold       96       58
1     cold       22       28
2      hot       17       81
3     cold       53       71
4     cold       47       63
5      hot       77       48
6     cold       39       32
7      hot       69       29
8      hot       88       49
9      hot        3       49

赞(0）回复(0）举报 2023-04-10

q7solyqu2#

假设系列s

s = pd.Series(np.arange(100))

获取[.1, .2, .3, .4, .5, .6, .7, .8, .9]的分位数

s.quantile(np.linspace(.1, 1, 9, 0))

0.1     9.9
0.2    19.8
0.3    29.7
0.4    39.6
0.5    49.5
0.6    59.4
0.7    69.3
0.8    79.2
0.9    89.1
dtype: float64

或

s.quantile(np.linspace(.1, 1, 9, 0), 'lower')

0.1     9
0.2    19
0.3    29
0.4    39
0.5    49
0.6    59
0.7    69
0.8    79
0.9    89
dtype: int32

赞(0）回复(0）举报 2023-04-10

8mmmxcuj3#

我发现下面会工作：

my_df.dropna().quantile([0.0, .9])

赞(0）回复(0）举报 2023-04-10

57hvy0tb4#

您甚至可以给予多个具有空值的列，并获得多个分位数值（我使用95%进行离群值处理）

my_df[['field_A','field_B']].dropna().quantile([0.0, .5, .90, .95])

赞(0）回复(0）举报 2023-04-10

ovfsdjhp5#

一种非常简单有效的方法是调用特定列上的describe函数

df['field_A'].describe()

这将给予平均值、最大值、中位数和第75百分位数

赞(0）回复(0）举报 2023-04-10

erhoui1w6#

Describe会给予你四分位数，如果你想要百分位数，你可以这样做

df['YOUR_COLUMN_HERE'].describe(percentiles=[.1, .2, .3, .4, .5, .6 , .7, .8, .9, 1])

赞(0）回复(0）举报 2023-04-10

我来回答

pandas 查找给定列的百分位统计信息

6条答案

`df`

相关问题

热门标签

最新问答