mapreduce/hadoop非常适合从各种资源的成堆数据中收集见解,并以我们希望的方式组织它们。但说到训练,我的印象是,我们必须将所有的训练数据一次全部转储到算法中(无论是svn、logistic回归还是随机森林),这样算法才能得到一个拥有所有数据的模型。mapreduce/hadoop能否在培训部分提供帮助?如果是,一般如何?
carvr3hs1#
对。有很多mapreduce实现,比如hadoop流媒体,甚至还有一些简单的工具,比如pig,可以用来学习。此外,还有基于map/reduce的分布式学习工具集,比如vowpal-wabbit(https://github.com/johnlangford/vowpal_wabbit/wiki/tutorial). 这种方法的主要思想是对一小部分数据(由hdfs分割)进行训练,然后对模型求平均值并与每个节点进行交换。因此,模型直接从基于部分数据构建的子模型中获取更新。
1条答案
按热度按时间carvr3hs1#
对。有很多mapreduce实现,比如hadoop流媒体,甚至还有一些简单的工具,比如pig,可以用来学习。此外,还有基于map/reduce的分布式学习工具集,比如vowpal-wabbit(https://github.com/johnlangford/vowpal_wabbit/wiki/tutorial). 这种方法的主要思想是对一小部分数据(由hdfs分割)进行训练,然后对模型求平均值并与每个节点进行交换。因此,模型直接从基于部分数据构建的子模型中获取更新。