在我的mac中,我有一个独立的Hadoop3.3.0安装
我有两个python脚本,mapper.py和reducer.py。
我可以成功地运行map和reduce的1个步骤,通过命令在本地hdfs上正确地写入输出
bin/hadoop jar /usr/local/Cellar/hadoop/3.3.0/libexec/share/hadoop/tools/lib/hadoop-*streaming*.jar -file /Users/mauro/hadoop_job/mapper.py -mapper /Users/mauro/hadoop_job/mapper.py -file /Users/mauro/hadoop_job/reducer.py -reducer /Users/mauro/hadoop_job/reducer.py -input /input/4300.txt -output /input/output-output
问题是:如何迭代这两个阶段直到满足一个条件?更具体地说,是为了熟悉hadoopmapreduce而实现的kmeans。
我可以更新质心一次,运行一个map和一个reduce。我现在需要将质心的更新版本发送回Map器,并多次迭代map reduce stages,直到满足某个条件(即簇内累积距离<阈值)。我该怎么做?
暂无答案!
目前还没有任何答案,快来回答吧!