我有一个数据在pandas中,比如:
df =
X1 X2 X3 Y
0 1 2 10 5.077
1 2 2 9 32.330
2 3 3 5 65.140
3 4 4 4 47.270
4 5 2 9 80.570
字符串
我想做多元回归分析。这里Y是因变量,x1,x2和x3是自变量。每个自变量与因变量的相关性是:
df.corr():
X1 X2 X3 Y
X1 1.000000 0.353553 -0.409644 0.896626
X2 0.353553 1.000000 -0.951747 0.204882
X3 -0.409644 -0.951747 1.000000 -0.389641
Y 0.896626 0.204882 -0.389641 1.000000
型
正如我们在这里看到的,y与x1的相关性最高,所以我选择x1作为第一个自变量。在这个过程中,我试图选择与y的偏相关性最高的第二个自变量。在这种情况下,如何找到偏相关性?
2条答案
按热度按时间4urapxun1#
Y
(最后一列)和其他列之间的成对排名如果你只是想找到
Y
和其他人之间的相关性排名,只需做-字符串
样品运行-
型
所有列之间的成对排名
如果你试图找到所有列之间的排名,我们会有一个这样的方法-
型
样品运行-
型
kgsdhlau2#
字符串