hadoop编码在ApacheMahout中查找z分数并计算相似度

wdebmtf2  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(377)

我对apache mahout很陌生。我已经设法使用它的皮尔逊相关和余弦向量,但我需要规范化的数据和使用z分数来计算相似性。我无法在mahout中找到允许这样做的方法。mahoutwiki也没有演示如何使用数据规范化和计算相似度。如果有人能帮我解决同样的问题,我会非常感激。

mlnl4t2r

mlnl4t2r1#

这些问题最好在mahout用户邮件列表中找到答案。
在任何情况下,这将是很好的了解你正在试图做什么更大的规模。听起来你可能在尝试建立一个推荐引擎。如果是这样,皮尔逊相关性通常是一个非常糟糕的方法。
最好使用mahout来计算指标行为,然后使用搜索引擎(如solr或elasticsearch)来部署推荐功能。
我们在o'reilly的小册子中描述了如何做到这一点,您可以从中获得:
https://www.mapr.com/practical-machine-learning

相关问题