python中的迭代hadoop mapreduce

mctunoxg 于 2021-05-31 发布在 Hadoop

关注(0)|答案(0)|浏览(250)

在我的mac中，我有一个独立的Hadoop3.3.0安装
我有两个python脚本，mapper.py和reducer.py。
我可以成功地运行map和reduce的1个步骤，通过命令在本地hdfs上正确地写入输出

bin/hadoop jar /usr/local/Cellar/hadoop/3.3.0/libexec/share/hadoop/tools/lib/hadoop-*streaming*.jar -file /Users/mauro/hadoop_job/mapper.py -mapper /Users/mauro/hadoop_job/mapper.py -file /Users/mauro/hadoop_job/reducer.py  -reducer /Users/mauro/hadoop_job/reducer.py  -input /input/4300.txt -output /input/output-output

问题是：如何迭代这两个阶段直到满足一个条件？更具体地说，是为了熟悉hadoopmapreduce而实现的kmeans。
我可以更新质心一次，运行一个map和一个reduce。我现在需要将质心的更新版本发送回Map器，并多次迭代map reduce stages，直到满足某个条件（即簇内累积距离<阈值）。我该怎么做？

hadoop mapreduce python

来源：https://stackoverflow.com/questions/63365459/iterative-hadoop-mapreduce-in-python

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

python中的迭代hadoop mapreduce

暂无答案！

相关问题

热门标签

最新问答