我试图根据目标变量的kde分布来确定一个特征是否重要。我知道如何绘制kde图并在看完图后进行猜测,但有没有更正式的方法来做这件事?比如我们能计算两条曲线之间不重叠区域的面积?
当我在谷歌上搜索两条曲线之间的区域时,有很多很多链接,但没有一个能解决我的确切问题。
注意事项:
这个情节的主要目的是发现功能是否重要。所以,如果我在这里遗漏了任何隐藏的概念,请进一步建议我。
我试图做的是设置一些阈值,如0.2,如果non-overlapping area > 0.2
,则Assert该特性是重要的,否则不是。
我的天
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
df = sns.load_dataset('titanic')
x0 = df.loc[df['survived']==0,'fare']
x1 = df.loc[df['survived']==1,'fare']
sns.kdeplot(x0,shade=1)
sns.kdeplot(x1,shade=1)
1条答案
按热度按时间h43kikqp1#
下面是我对这个问题的计算部分的看法:
np.trapz
.下面是这些想法转换成的一些示例代码和说明情节: