如何在sparkDataframe中执行tukey hsd测试?

mtb9vblg  于 2021-07-13  发布在  Spark
关注(0)|答案(0)|浏览(216)

我正在尝试使用pyspark在一个非常大的数据集上执行tukey的测试。现在我知道在python中我们可以使用 pairwise_tukeyhsd 图书馆从 statsmodels.stats.multicomp 模块。这将需要我将sparkDataframe转换为pandasDataframe,这会破坏使用rdd的目的,并且不会在我的大型数据集上工作。
另一种方法是手动对sparkDataframe进行数学上的测试,如这里所示,这非常简单,可以比较 meansQ_crit 值,我需要tukey的临界值表。
有没有办法计算tukey表上的临界值?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题