我有两个变量,我想测试它们之间的相关性。因变量是二进制(0/1),自变量是分类变量,有5个可能的类别。我的直觉是使用逻辑回归来做这件事,但我想知道是否有更合适的替代品考虑到下面的一些挑战。
基本上,根据我的特定目标,我在正确解释逻辑回归输出时遇到了一点麻烦。在R中,用于估计逻辑回归的默认参数要求它保持其中一个类别不变(作为截距),并报告其他类别与截距 * 相关 * 的系数。这不是我想要的;相反,我希望能够报告IV中的每个类别对DV的影响,而所有其他类别保持不变。我已经尝试过抑制截距,但在其他地方读到,这在逻辑回归中通常不是一个好主意。因此,我想知道是否有人可以阐明这种策略,或提供替代方案,将帮助我达到我需要的位置。谢谢!
2条答案
按热度按时间vuktfyat1#
检验分类变量之间的相关性时,应用卡方检验并检查其皮尔森残差,然后使用corrplot软件包将其绘制成图。
k10s72fa2#
解释
我认为您误解了截距对分类变量的作用方式,因此务必记住它是一个线性方程(为什么这是重要的,下面详细说明)。在这种情况下,截距是您的类别的参考水平。因此,如果您有一个包含三个类别的预测值(例如"对照组"、"处理1"和"处理2"),无论是默认的还是指定的第一水平,都将用于截距(在这种情况下,将使用"对照组",因为它是第一水平)。
单一预测值用例
下面的示例来自我从here借用的
hdp
数据,该数据应该用于逻辑GLMM,但在这里仍然可以用于常规逻辑回归的简单演示:我们将缓解作为二元结果(癌症是否进入缓解编码为0/1),性别作为分类变量(女性作为参照组)进行数据拟合,我们还将添加一个连续变量红细胞计数(RBC),然后我们总结模型:
如果你运行最后一个代码
summary(fit)
,你会得到很多信息,所以我只包括下面的系数:线性方程组与预测函数
该线性方程表示为:
因此,如果我们有一个女性,方程去掉了中间项(因为女性是虚拟的,编码为0,所以.05 * 0 = 0),简化为:
你可以在R中使用
predict
函数来测试,这里我创建了一个新的数据,它包含一个新的男性和一个新的红细胞计数5。然后使用此数据的线性方程从模型中获得预测值:
输出如下所示:
这是正确的,因为当性别为男性(性别= 1)且RBC为5时,线性方程将等于:
如果她们是女性,这个等式将变成:
资源
顺便说一下,一本关于在R中学习逻辑回归的好书是约瑟夫·希尔贝的《逻辑回归实用指南》,在第28页有一个具体的章节详细介绍了如何解释分类预测因子。