我有一份用python编写mapreduce的工作。在我把它放在电子病历上之前,我想在本地测试一下。
目前我知道的唯一测试方法是运行以下命令: cat input_file | python mapper.py | sort -k 1,1 | python reducer > output_file
但是这个管道对我来说有点吓人,因为如果有什么东西在里面断了,我就不知道了(除了检查这个命令的退出代码)。
有没有更优雅的/pythonic的方法来运行mapreduce并检查它是否成功运行(这样我就可以捕获特定的异常并处理它)?
谢谢您
1条答案
按热度按时间qgelzfjb1#
一个明显的方法是在本地hadoop框架中测试代码。例如,您可以在由cloudera或hortonworks提供的vm中使用打包的hadoop集群。