我有一个由450列和550000行组成的大型数据框。在列中我有:
- 73根浮动柱
- 30列日期
- 对象中剩余列
我想对我的变量做一个描述,但不仅仅是像往常一样描述,还包括同一矩阵中的其他描述。最后,我们将有一个描述矩阵,其中包含450个变量,然后详细描述:- dtype - count -空值计数-空值的百分比-最大值-最小值- 50% - 75% - 25% -......
现在,我只有一个基本的函数来描述我的数据:
Dataframe.describe(include = 'all')
你有一个函数或方法来做这个更广泛的描述。
- 谢谢-谢谢
2条答案
按热度按时间pieyvz9o1#
您需要为
Series
编写自定义函数,然后添加到最终描述DataFrame
:count
-使用函数count
计算非NaNs值 *第一个
piah890a2#
在panda中,没有
describe()
的替代函数,但是很明显它不能显示你需要的所有值,你可以相应地使用describe()
函数的各种参数。DataFrame上的
describe()
仅适用于数值类型。如果您认为您有一个数值变量,但它没有显示在describe()
中,请使用以下命令更改类型:您也可以建立新数据行来行程混合类型数据行的数值部分,或使用字典和
map()
函数将字串转换成数字。describe()
将为您提供一些统计信息(如计数、唯一值和最频繁出现的值)。要只对
object
(字符串)调用describe()
,请使用describe(include = ['O'])
。