我有一个Pandas框架,其中每一列代表一个单独的属性,每行保存属性在特定日期的值:
import pandas as pd
dfstr = \
''' AC BO C CCM CL CRD CT DA GC GF
2010-01-19 0.844135 -0.194530 -0.231046 0.245615 -0.581238 -0.593562 0.057288 0.655903 0.823997 0.221920
2010-01-20 -0.204845 -0.225876 0.835611 -0.594950 -0.607364 0.042603 0.639168 0.816524 0.210653 0.237833
2010-01-21 0.824852 -0.216449 -0.220136 0.234343 -0.611756 -0.624060 0.028295 0.622516 0.811741 0.201083'''
df = pd.read_csv(pd.compat.StringIO(dfstr), sep='\s+')
使用rank
方法,我可以找到每个属性相对于特定日期的百分比排名:
df.rank(axis=1, pct=True)
输出量:
AC BO C CCM CL CRD CT DA GC GF
2010-01-19 1.0 0.4 0.3 0.7 0.2 0.1 0.5 0.8 0.9 0.6
2010-01-20 0.4 0.3 1.0 0.2 0.1 0.5 0.8 0.9 0.6 0.7
2010-01-21 1.0 0.4 0.3 0.7 0.2 0.1 0.5 0.8 0.9 0.6
我想得到的是每个属性的分位数(如四分位数,五分位数,十分位数等)排名。例如,对于quintile rank,我想要的输出是:
AC BO C CCM CL CRD CT DA GC GF
2010-01-19 5 2 2 4 1 1 3 4 5 3
2010-01-20 2 2 5 1 1 3 4 5 3 4
2010-01-21 5 2 2 4 1 1 3 4 5 3
我可能错过了一些东西,但似乎没有一个内置的方式来做这种分位数排名与Pandas。获得所需输出的最简单方法是什么?
2条答案
按热度按时间dxxyhpgq1#
方法1
mul
&np.ceil
你的军衔很接近。只需乘以5与
.mul
得到所需的分位数,也四舍五入与np.ceil
:Output
如果你想要整数,使用
astype
:或者更好从pandas版本 0.24.0 开始,我们有nullable integer类型:
Int64
。所以我们可以使用:用途:
Output
方法二
scipy.stats.percentileofscore
Output
olmpazwi2#
您现在可以使用pd.qcut
已完成的测试用例代码
输入
输出