我正在使用hadoopstreaming2.7.3和python。有没有一种方法可以在数据已经分发到Map器之后,但在Map器开始处理之前对其进行排序?
我尝试过使用与mapper.py文件管道连接的unix sort命令,并在hadoop流媒体中将其作为“mapper”选项,但它不起作用。像这样的
-mapper "sort -t' ' -k2,2n | python3 mapper.py"
我还尝试使用unix sort命令作为Map器,使用mapper.py文件作为组合器,但没有效果。喜欢
-mapper "sort -t' ' -k2,2n"
-combiner "python3 mapper.py"
暂无答案!
目前还没有任何答案,快来回答吧!