gfg_data <- data.frame(
year = c(2019, 2019, 2019, 2020, 2020, 2020, 2021, 2021, 2021, 2022, 2022, 2022),
Timings = c(5, 6, 4, 2, 3, 4, 11, 13, 15, 14, 17, 12)
)
与我使用的数据集相比,这是一个简化得多的数据集。本质上,我希望找出在时间上最相似的年份。因此,我希望能够看到2019年和2020年相似,2021/2022年相似。我的原始数据集有500个变量,所以它不会像浏览数据并记下相似之处那么简单。
3条答案
按热度按时间mf98qq941#
一种方法是使用层次聚类,例如,
hclust
使用k=2
或者具有高度
h=7
,该高度可以通过检查实际的聚类而找到(红线在7处)。rmbxnbpk2#
给定距离
5
(不含)作为聚类值的阈值,您可以尝试如下igraph
它给出了
如果您已经有了群集的数量,例如
2
,则可以使用kmeans
,如下所示cnh2zyt33#
1)最大绝对差假设每年具有相同数量的行,且顺序一致,我们可以计算每对年份中时间之间的最大绝对差,然后对结果进行排序。
m
是每年具有一列的矩阵,out
是每对年份的最大绝对差的向量。outDF
表示out
为一个数据框,从outDF
和柱状图中我们可以看到,2019/2020和2021/2022比其他两个数据对距离更近。2)multcomp另一种可能性是使用multcomp对组平均值执行多重比较显著性检验。带有年份和字母的数据框显示2019年和2020年没有显著差异,2021年和2022年也没有显著差异。末尾的图显示每年的箱形图,并且显著性分组字母位于顶部。
3)emmeans使用emmeans,我们可以为每对均值差创建一个置信区间图,这样区间过零的那些对中的年份就没有显著差异。
mdl
来自上面。