Pandas广泛的“描述”包括计数空值

8hhllhi2  于 2022-12-09  发布在  其他
关注(0)|答案(2)|浏览(113)

我有一个由450列和550000行组成的大型数据框。在列中我有:

  • 73根浮动柱
  • 30列日期
  • 对象中剩余列

我想对我的变量做一个描述,但不仅仅是像往常一样描述,还包括同一矩阵中的其他描述。最后,我们将有一个描述矩阵,其中包含450个变量,然后详细描述:- dtype - count -空值计数-空值的百分比-最大值-最小值- 50% - 75% - 25% -......
现在,我只有一个基本的函数来描述我的数据:

Dataframe.describe(include = 'all')

你有一个函数或方法来做这个更广泛的描述。

  • 谢谢-谢谢
pieyvz9o

pieyvz9o1#

您需要为Series编写自定义函数,然后添加到最终描述DataFrame

  • 注意事项 *:
  • 最终df的第一行是count-使用函数count计算非NaNs值 *

第一个

piah890a

piah890a2#

在panda中,没有describe()的替代函数,但是很明显它不能显示你需要的所有值,你可以相应地使用describe()函数的各种参数。
DataFrame上的describe()仅适用于数值类型。如果您认为您有一个数值变量,但它没有显示在describe()中,请使用以下命令更改类型:

df[['col1', 'col2']] = df[['col1', 'col2']].astype(float)

您也可以建立新数据行来行程混合类型数据行的数值部分,或使用字典和map()函数将字串转换成数字。
describe()将为您提供一些统计信息(如计数、唯一值和最频繁出现的值)。
要只对object(字符串)调用describe(),请使用describe(include = ['O'])

相关问题