spark长时间运行操作

bqujaahr  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(293)

我只是在等待关于我们的以下问题的提示。它是关于使用spark计算基于内容的推荐的最近邻的。为此,除了spark.ml包之外,我们还使用了第三方karlhigley lib。
它都在大集群中运行,每个执行器/驱动程序、内核等都有足够的内存,所以资源不是问题。
但我们遇到的问题和计算中使用的数据有关。我们有一组数据(例如200mb文件,word2vec报告vocabsize=21140,trainwordscont=4347135)。它完成了5分钟的推荐生成。另一方面,我有一个20mb大小的数据集,报告的vocabsize=3926,trainwordscont=698892,这是永无止境的!
csv文件包含用于此目的的数据,它包含三列,约30万行,其中只有一列(用于邻居)包含单个字的值(其他两列包含空格作为值)。
所以它持续了20个小时,然后我杀了它。
不说细节,是什么可能导致第一个(10倍大的数据)在5分钟内完成,第二个持续20个小时,实际上永远不会结束。。。
我根本无法理解这是一个什么问题(这显然取决于数据集),但无法理解为什么更大的数据集在5分钟内完成计算,。小10倍的不能加工到最后。
任何暗示都会很感激。。。桑克斯

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题