spark长时间运行操作

bqujaahr 于 2021-05-29 发布在 Spark

关注(0)|答案(0)|浏览(293)

我只是在等待关于我们的以下问题的提示。它是关于使用spark计算基于内容的推荐的最近邻的。为此，除了spark.ml包之外，我们还使用了第三方karlhigley lib。
它都在大集群中运行，每个执行器/驱动程序、内核等都有足够的内存，所以资源不是问题。
但我们遇到的问题和计算中使用的数据有关。我们有一组数据（例如200mb文件，word2vec报告vocabsize=21140，trainwordscont=4347135）。它完成了5分钟的推荐生成。另一方面，我有一个20mb大小的数据集，报告的vocabsize=3926，trainwordscont=698892，这是永无止境的！
csv文件包含用于此目的的数据，它包含三列，约30万行，其中只有一列（用于邻居）包含单个字的值（其他两列包含空格作为值）。
所以它持续了20个小时，然后我杀了它。
不说细节，是什么可能导致第一个（10倍大的数据）在5分钟内完成，第二个持续20个小时，实际上永远不会结束。。。
我根本无法理解这是一个什么问题（这显然取决于数据集），但无法理解为什么更大的数据集在5分钟内完成计算，。小10倍的不能加工到最后。
任何暗示都会很感激。。。桑克斯

scala apache-spark nearest-neighbor

来源：https://stackoverflow.com/questions/62449801/spark-long-running-operation

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

spark长时间运行操作

暂无答案！

相关问题

热门标签

最新问答