我们有一个密度估计的需求(最终目标是做异常检测),在过去,我们使用纯python来处理带有scipy的小数据集,其方法类似于whats。描述如下:用scipy(python)将经验分布拟合为理论分布?这对小数据集很有效,但是现在我们需要对5000多个变量进行拟合,每个变量有数千个样本,我们正在寻找利用我们的spark集群来扩展这一点的方法,spark pyspark.mllib.stat.KernelDensity
但是我找不到任何例子说明如何在不需要一个循环来迭代和计算每个变量的一个密度的情况下,而不是在一个而是多个密度估计的情况下使用它。
我的问题是,我们如何做以下选择之一:
在spark集群内以分布式/并行方式运行基于scipy.stats的方法?
使用pyspark.mllib.stat.kerneldensity并行运行多重密度估计
在这两种情况下,目标都是利用并行性,而不必依次对循环中的每个变量运行密度估计。
暂无答案!
目前还没有任何答案,快来回答吧!