本地测试mapreduce流媒体作业的更优雅的方法?

ippsafx7  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(330)

我有一份用python编写mapreduce的工作。在我把它放在电子病历上之前,我想在本地测试一下。
目前我知道的唯一测试方法是运行以下命令: cat input_file | python mapper.py | sort -k 1,1 | python reducer > output_file 但是这个管道对我来说有点吓人,因为如果有什么东西在里面断了,我就不知道了(除了检查这个命令的退出代码)。
有没有更优雅的/pythonic的方法来运行mapreduce并检查它是否成功运行(这样我就可以捕获特定的异常并处理它)?
谢谢您

qgelzfjb

qgelzfjb1#

一个明显的方法是在本地hadoop框架中测试代码。例如,您可以在由cloudera或hortonworks提供的vm中使用打包的hadoop集群。

相关问题