**我在你的情况下提出的一件事(有数据点作为时间序列),是使用相关性度量(低分数意味着你的特征之间的低关系:**在你的情况下,你实际上有3个特征(时间,红色趋势,蓝色趋势),当然趋势作为平均点。 **这里的重要问题是,使用什么相关性度量?**基于this website, by Jason Brownlee PhD,因为你的特征都是数值,可能存在非线性关系,你最好使用斯皮尔曼相关系数。但它永远不会伤害使用皮尔逊以及。
您还可以看到何时使用其他方法(即,ANOVA)在网站上以前的。
作为实施的例子
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
t = np.linspace(1, 20, 100)
x = np.sin(np.exp(t))
y = np.cos(np.exp(t))
plt.plot(t, x)
plt.plot(t, y)
res1 = stats.spearmanr(x, y)
print(res1)
# SpearmanrResult(correlation=-0.01120912091209121, pvalue=0.9118658174696723)
res2 = stats.pearsonr(x, y)
print(res2)
# (-0.016667117318862758, 0.8692689697764168)
1条答案
按热度按时间sg24os4d1#
**我在你的情况下提出的一件事(有数据点作为时间序列),是使用相关性度量(低分数意味着你的特征之间的低关系:**在你的情况下,你实际上有3个特征(时间,红色趋势,蓝色趋势),当然趋势作为平均点。
**这里的重要问题是,使用什么相关性度量?**基于this website, by Jason Brownlee PhD,因为你的特征都是数值,可能存在非线性关系,你最好使用斯皮尔曼相关系数。但它永远不会伤害使用皮尔逊以及。
您还可以看到何时使用其他方法(即,ANOVA)在网站上以前的。
作为实施的例子
只要你的相关性接近于零,那么你的特征之间就应该没有关系。
**在你自己的测试中,请注意p值,**在我的例子中,p值很高,这在统计上是不显著的(由于手动生成数据),如果你设法得到p值< 0.05,你的结果将是统计上显著的。