我已经找到了一些关于如何创建我自己的非分布式推荐程序的教程,但没有找到如何创建我自己的分布式推荐程序作业的教程(如果您知道任何链接,都欢迎使用)。
在“mahout in action”一书中,有一些例子说明了如何使用mahout的对象编写Map器/还原器,但似乎没有说明如何将这些作业组合在一起?
不过,mahout core中有item/recommenderjob,它给出了如何实现这一点的想法。我的实际意图是替换第一个Map器,这样我就不必在mahout之外准备数据(行看起来像“userid,itemid1,itemid2,itemid3…”并且使用item.recommenderjob我显然需要像“itemid1,itemid2”,“itemid1,itemid3”,…)这样的行。
现在复制一下推荐人的职业课程,改变一下我需要的是不是一个好主意?我已经尝试过了,但是由于这个类使用包范围内的变量(例如。g。uservectorsplittermapper.users\u文件)我必须替换这些-这感觉不太好。
我应该创建一个新的类来扩展abstractjob并从recommenderjob中挑选我需要的东西吗?那么在推荐工作中我真正需要的要素是什么呢?
1条答案
按热度按时间gzszwxb41#
你的选择是在工作之前加上你自己的工作,把你的输入转化成工作想要的形式,或者,实际上只是修改工作。我认为,如果您需要一些不支持(也没有意义)作为某种配置参数的琐碎更改,那么复制作业并修改和自定义它并不是什么大不了的事情。