我对apache mahout很陌生。我已经设法使用它的皮尔逊相关和余弦向量,但我需要规范化的数据和使用z分数来计算相似性。我无法在mahout中找到允许这样做的方法。mahoutwiki也没有演示如何使用数据规范化和计算相似度。如果有人能帮我解决同样的问题,我会非常感激。
mlnl4t2r1#
这些问题最好在mahout用户邮件列表中找到答案。在任何情况下,这将是很好的了解你正在试图做什么更大的规模。听起来你可能在尝试建立一个推荐引擎。如果是这样,皮尔逊相关性通常是一个非常糟糕的方法。最好使用mahout来计算指标行为,然后使用搜索引擎(如solr或elasticsearch)来部署推荐功能。我们在o'reilly的小册子中描述了如何做到这一点,您可以从中获得:https://www.mapr.com/practical-machine-learning
1条答案
按热度按时间mlnl4t2r1#
这些问题最好在mahout用户邮件列表中找到答案。
在任何情况下,这将是很好的了解你正在试图做什么更大的规模。听起来你可能在尝试建立一个推荐引擎。如果是这样,皮尔逊相关性通常是一个非常糟糕的方法。
最好使用mahout来计算指标行为,然后使用搜索引擎(如solr或elasticsearch)来部署推荐功能。
我们在o'reilly的小册子中描述了如何做到这一点,您可以从中获得:
https://www.mapr.com/practical-machine-learning