tldr:在databricks笔记本中安装db扫描大大改变了分类模型在同一笔记本中的性能。不知道为什么。
我在azuredatabricks环境中使用pyspark笔记本,并尝试训练一种分类算法(random forest),基本上将客户分为两个(不平衡的)组。我尝试使用db scan将集群标签分配给这些客户,然后将这些标签作为一个特性传递到随机林模型中。
当我在没有运行db scan(注解掉)的情况下训练模型时,在保留测试集上的结果非常一般。当我清除笔记本状态并重新运行代码时,安装db scan并将标签作为一个特性传入,结果非常棒,甚至比我想象的要好。但是,如果我将准备好的数据与集群标签一起保存,清除笔记本状态,并通过集群标签再次训练随机林(唯一的区别是在运行中不适合db scan,标签仍在使用),结果再次非常一般。
我已经做了几个测试来确认在模型运行之间唯一改变的是db scan在运行中通过拟合数据来获得良好的结果。其他一切都是相同的,代码和数据被传递到随机模型中。
这让我相信,在安装db scan之后,databricks集群内部发生了一些事情,这导致随机森林分类模型将阳性案例视为高度相似的,即使在它没有训练过的数据上也是如此。这让我很困惑。有人能解释为什么会这样吗?其他人也发生过类似的事情吗?
暂无答案!
目前还没有任何答案,快来回答吧!