我有一个商业性能数据集,如下所示:
| 客户端类型|信道|%增长体积|
| --|--|--|
| 大零售|一|百分之九|
| 大零售|B|占7%|
| 中端零售|一|百分之十一|
| 中端零售|B|百分之十八|
| 小型零售|一|百分之二十一|
| 小型零售|B|百分之十六|
我正在测量一段时间内客户群的数量增长。唯一的效果差异是通过哪个分销渠道(A,B)到达市场。每个集群之间的客户是不同的(大型零售商通过A或B进入市场,从来没有切换)和集群内相当同质。上表只是一个总结。我有2000+的完整数据集客户及其各自的增长、集群、渠道等。我的目标是确定给定客户类型的渠道之间的增长率是否存在显著差异,即渠道选择是否与业绩有关。例如,大型零售商的增长率为9%与7%是否存在显著差异。
我最初采用的是双样本T检验(独立样本),注意数据组具有相等的方差,并相应地进行调整(如果是,直接使用t检验;如果不是,则使用Welch的t检验)。
我目前不确定,因为我一直使用t检验的绝对属性,如重量,大小,速度等,事实上,我正在探索增长率现在肯定让我有点不安,其正确的用法。
我使用t检验是正确的吗?有更好的/正确的检验吗?
1条答案
按热度按时间dphi5xsq1#
是的,这就是我会做的。我不会检查方差齐性,因为这有点过分。我会使用韦尔奇的t检验的一切。
不过,我会先看一下每个因子(在你的例子中是通道)的分布,如果它们看起来是正态的,就用上面的t检验,否则就用Mann–Whitney U test。
如果你真的想小心,除了用眼睛估计外,还要检验正态性。有很多正态性检验,见Normality test。我通常应用Shapiro–Wilk test,但YMMV。