我想实现决策树 ID3/C4.5 在 Hadoop . 任何人都不知道该怎么做。我很清楚这些算法,但我需要知道如何并行化它们。
ID3/C4.5
Hadoop
unhi4e5o1#
我会考虑将一次属性选择迭代作为一个mapreduce作业。按照这个想法,你可以在属性上分配给每个Map器来检查信息增益,在reduce阶段(使用单个reducer),你可以选择最好的属性。如果在一台机器上(在所有属性上)单个迭代的计算比作业开始开销(大约20-40秒)稍长,我认为这种方法是可行的。
1条答案
按热度按时间unhi4e5o1#
我会考虑将一次属性选择迭代作为一个mapreduce作业。按照这个想法,你可以在属性上分配给每个Map器来检查信息增益,在reduce阶段(使用单个reducer),你可以选择最好的属性。
如果在一台机器上(在所有属性上)单个迭代的计算比作业开始开销(大约20-40秒)稍长,我认为这种方法是可行的。