sort输入到mapper hadoop流

pkwftd7m  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(180)

我正在使用hadoopstreaming2.7.3和python。有没有一种方法可以在数据已经分发到Map器之后,但在Map器开始处理之前对其进行排序?
我尝试过使用与mapper.py文件管道连接的unix sort命令,并在hadoop流媒体中将其作为“mapper”选项,但它不起作用。像这样的

-mapper "sort -t' ' -k2,2n | python3 mapper.py"

我还尝试使用unix sort命令作为Map器,使用mapper.py文件作为组合器,但没有效果。喜欢

-mapper "sort -t' ' -k2,2n"
-combiner "python3 mapper.py"

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题