相关性分析:两个连续变量之间的关系检验。
Pearson相关系数:衡量两个变量的线性相关关系;
Spearman相关系数:衡量两个变量的线性相关关系,部分非线性的也可以衡量;
Kendall相关系数:衡量两个变量之间非线性相关关系;
0.3以上就是有相关性了,0.3~0.5就是有点强的,0.5以上就是很强的。
下面是分类变量,研究非连续的变量
卡方检验:两个分类变量的分析,是否相关,不能表示强弱。
连续变量
代码如下:
from statsmodels.stats.anova import anova_lm
from statsmodels.formula.api import ols
import pandas as pd
from scipy import stats
df = pd.DataFrame(
[
[20, 6000], [18, 6500], [17, 4500], [16, 3000], [21, 8000], [23, 18000],
[30, 25000], [40, 18000], [55, 10000], [35, 19000], [26, 15000], [27, 8000]
],
columns=["age", "income"]
)
if __name__ == '__main__':
print(df[['age', 'income']].corr(method='pearson'), "\n")
print(df[['age', 'income']].corr(method='spearman'), "\n")
print(df[['age', 'income']].corr(method='kendall'), "\n")
print(stats.chi2_contingency(df));
pass
运行截图如下:
版权说明 : 本文为转载文章, 版权归原作者所有 版权申明
原文链接 : https://it1995.blog.csdn.net/article/details/123039824
内容来源于网络,如有侵权,请联系作者删除!