databricks：在同一个笔记本中运行dbscan集群，就像一个随机森林模型一样，极大地改变了模型预测

vhipe2zx 于 2021-05-18 发布在 Spark

关注(0)|答案(0)|浏览(276)

tldr：在databricks笔记本中安装db扫描大大改变了分类模型在同一笔记本中的性能。不知道为什么。
我在azuredatabricks环境中使用pyspark笔记本，并尝试训练一种分类算法（random forest），基本上将客户分为两个（不平衡的）组。我尝试使用db scan将集群标签分配给这些客户，然后将这些标签作为一个特性传递到随机林模型中。
当我在没有运行db scan（注解掉）的情况下训练模型时，在保留测试集上的结果非常一般。当我清除笔记本状态并重新运行代码时，安装db scan并将标签作为一个特性传入，结果非常棒，甚至比我想象的要好。但是，如果我将准备好的数据与集群标签一起保存，清除笔记本状态，并通过集群标签再次训练随机林（唯一的区别是在运行中不适合db scan，标签仍在使用），结果再次非常一般。
我已经做了几个测试来确认在模型运行之间唯一改变的是db scan在运行中通过拟合数据来获得良好的结果。其他一切都是相同的，代码和数据被传递到随机模型中。
这让我相信，在安装db scan之后，databricks集群内部发生了一些事情，这导致随机森林分类模型将阳性案例视为高度相似的，即使在它没有训练过的数据上也是如此。这让我很困惑。有人能解释为什么会这样吗？其他人也发生过类似的事情吗？

apache-spark cluster-analysis databricks classification dbscan

来源：https://stackoverflow.com/questions/64723410/databricks-running-dbscan-clustering-in-the-same-notebook-as-a-random-forest-mo

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

databricks：在同一个笔记本中运行dbscan集群，就像一个随机森林模型一样，极大地改变了模型预测

暂无答案！

相关问题

热门标签

最新问答