关闭。这个问题需要更加突出重点。它目前不接受答案。**想改进这个问题吗?**通过编辑这篇文章更新这个问题,使它只关注一个问题。
5年前关门了。改进这个问题我正在阅读有关协作过滤的als算法论文,但不确定如何在hadoop中实现该算法。有人能透露一些信息吗?谢谢。
mftmpeh81#
我认为这篇文章是关于如何在分布式环境中自己实现als的最好描述-https://spark.apache.org/docs/latest/mllib-collaborative-filtering.html. 这里的实现是针对apache flink的,但是它展示了一切:从基本的理解,简单的方法,然后使用广播矩阵和分块实现。对于已经实现的als解决方案,我建议使用spark mllib-https://spark.apache.org/docs/latest/mllib-collaborative-filtering.html. 这个实现可以直接在您的yarn集群上运行,并从hdfs/hive收集数据。如果你需要保持你的矩阵分解潜在模型几乎在线更新或提供匿名用户在线推荐,那么你应该看看新的oryx项目-https://github.com/oryxproject/oryx. 这实际上被称为羚羊2,这是以前羚羊的转世,但在lambda架构中。很好的图片很好的推荐引擎,你应该找到有趣的部分,为你的研究。最后但并非最不重要的一点,我建议在单机上实现als的简单poc实现。然后进行分布式实现。
1条答案
按热度按时间mftmpeh81#
我认为这篇文章是关于如何在分布式环境中自己实现als的最好描述-https://spark.apache.org/docs/latest/mllib-collaborative-filtering.html. 这里的实现是针对apache flink的,但是它展示了一切:从基本的理解,简单的方法,然后使用广播矩阵和分块实现。
对于已经实现的als解决方案,我建议使用spark mllib-https://spark.apache.org/docs/latest/mllib-collaborative-filtering.html. 这个实现可以直接在您的yarn集群上运行,并从hdfs/hive收集数据。
如果你需要保持你的矩阵分解潜在模型几乎在线更新或提供匿名用户在线推荐,那么你应该看看新的oryx项目-https://github.com/oryxproject/oryx. 这实际上被称为羚羊2,这是以前羚羊的转世,但在lambda架构中。很好的图片很好的推荐引擎,你应该找到有趣的部分,为你的研究。
最后但并非最不重要的一点,我建议在单机上实现als的简单poc实现。然后进行分布式实现。