r stat_regline_equation()截距和斜率问题

mnemlml8  于 2023-03-20  发布在  其他
关注(0)|答案(1)|浏览(169)

我的问题是图上显示的stat_regline_equation()中的interceptslope与模型拟合ldply(modelfit, coef)中的interceptslope不匹配,后者是我在图上所期望的。
以下是我们重现此问题的方法。

首先,我从一个玩具数据集开始。

  1. library(lme4)
  2. data(Soybean)
  3. library(plyr)
  4. library(nlme)
  5. library(ggplot2)
  6. library(ggpubr)
  7. library(lemon)
  8. head(Soybean)
  9. Plot Variety Year Time weight
  10. 1988.1 1988F1 F 1988 14 0.106
  11. 1988.2 1988F1 F 1988 21 0.261
  12. 1988.3 1988F1 F 1988 28 0.666
  13. 1988.4 1988F1 F 1988 35 2.110
  14. 1988.5 1988F1 F 1988 42 3.560
  15. 1988.6 1988F1 F 1988 49 6.230

第二个,我按年份对数据集的每个子集拟合模型,其中Variety作为随机截距。

  1. table(Soybean$Year)
  2. 1988 1989 1990
  3. 156 128 128
  4. table(Soybean$Variety)
  5. F P
  6. 204 208
  7. # Fit LME model for each subset(Soybean)
  8. MxM1 <- dlply(Soybean,
  9. "Year",
  10. function(x)
  11. lme(fixed = weight ~ Time,
  12. random = ~ 1 |Variety ,
  13. data=x, na.action=na.exclude))

这些是模型中随机截距(品种)的系数。2个品种,3年,6个不同的截距,这是有意义的。

  1. ldply(MxM1, coef)
  2. Year (Intercept) Time
  3. 1 1988 -8.65 0.349
  4. 2 1988 -7.73 0.349
  5. 3 1989 -6.71 0.242
  6. 4 1989 -4.04 0.242
  7. 5 1990 -7.28 0.309
  8. 6 1990 -6.63 0.309

第三,我估计你的体重

  1. Soybean <- by(Soybean, Soybean$Year, \(x) {
  2. fit <- lme(fixed = weight ~ Time,
  3. random = ~ 1 |Variety ,
  4. data=x, na.action=na.exclude)
  5. cbind(x, yhat=predict(fit, na.action=na.exclude))
  6. }) |> do.call(what=rbind)
  7. Plot Variety Year Time weight yhat
  8. 1988.1 1988F1 F 1988 14 0.106 -3.76
  9. 1988.2 1988F1 F 1988 21 0.261 -1.32
  10. 1988.3 1988F1 F 1988 28 0.666 1.12
  11. 1988.4 1988F1 F 1988 35 2.110 3.57
  12. 1988.5 1988F1 F 1988 42 3.560 6.01
  13. 1988.6 1988F1 F 1988 49 6.230 8.45

第四个:我正在绘制散点图,x轴:时间,y轴:权重,一条基于yhat值的散点图的回归线。我明白了

  1. ggplot(data = Soybean,
  2. aes (x=Time, y = weight))+
  3. geom_point(size =3)+
  4. geom_line(aes(y=yhat))+
  5. stat_regline_equation()+
  6. theme_classic()+
  7. facet_rep_grid(Variety~Year)

期望一条具有斜率和截距的回归线

  1. ldply(MxM1, coef)
  2. Year (Intercept) Time
  3. 1 1988 -8.65 0.349
  4. 2 1988 -7.73 0.349
  5. 3 1989 -6.71 0.242
  6. 4 1989 -4.04 0.242
  7. 5 1990 -7.28 0.309
  8. 6 1990 -6.63 0.309

因为yhat预测值基于ldply(MxM1, coef)的估计值,所以当我使用stat_regline_equation()函数时,我预期会出现ldply(MxM1, coef)的直线估计值,但这不是我看到的结果。我不确定为什么stat_regline_equation()忽略yhat的值,并使用lm函数绘制回归线?
任何关于如何绘制回归线与yhat和估计值(斜率和截距)从ldply(MxM1, coef)的建议是非常感谢。谢谢。

mctunoxg

mctunoxg1#

这两个东西给你的信息不一样,这是有道理的,从stat_regline_equation()的文档来看,每一行都是用lm()估计的:

  1. Add regression line equation and R^2 to a ggplot. Regression model is fitted using the function lm.

由于VarietyYear都是分面的,因此它会为六个分面中的每一个拟合一条单独的线。为了说明这一点,我们可以将1988年的数据进行子集化,并使用TimeVariety的交互作用拟合一个模型:

  1. Soybean1988 <- Soybean[Soybean$Year == "1988",]
  2. model_1988 <- lm(weight ~ Time * Variety, data = Soybean1988)
  3. summary(model_1988)
  4. Call:
  5. lm(formula = weight ~ Time * Variety, data = Soybean1988)
  6. Residuals:
  7. Min 1Q Median 3Q Max
  8. -4.5718 -2.1753 -0.6001 1.2478 10.3532
  9. Coefficients:
  10. Estimate Std. Error t value Pr(>|t|)
  11. (Intercept) -7.68423 0.71742 -10.711 <2e-16 ***
  12. Time 0.32545 0.01474 22.085 <2e-16 ***
  13. VarietyP -0.96067 1.00934 -0.952 0.3427
  14. Time:VarietyP 0.04550 0.02052 2.218 0.0281 *
  15. ---
  16. Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 1
  17. Residual standard error: 2.567 on 152 degrees of freedom
  18. Multiple R-squared: 0.8855, Adjusted R-squared: 0.8833
  19. F-statistic: 392 on 3 and 152 DF, p-value: < 2.2e-16

如果我们看一下图,品种F的截距为-7.7,斜率为3.3。这与(Intercept)Time中报告的信息相匹配。VarietyP是两个品种的平均值之间的变化,它等于图左上角的-7.7和左下角的-8.6之差,同样,Time:VarietyP是斜率之差。
我希望这有助于澄清您在此处发现的差异。

展开查看全部

相关问题