所以基本上我使用mapreduce for wordcount来保存hadoop中的文本文件,现在我想查看输出。
目前,这是我在网上看到的唯一命令:
bin/hadoop fs -cat output/part-r-00000 | sort -k 2 -n -r | less
到目前为止,我只是被这个命令搞糊涂了,它只是对输出进行排序吗?我可以查看输出而不进行排序吗?
这个命令是否对wordcount进行排序,否则按字母顺序显示所有内容?你有没有其他方法可以推荐给保存下来的小说文本排序?
我也可以只查看wordcount的输出文件而不进行排序吗?
1条答案
按热度按时间nhn9ugyo1#
我可以查看输出而不进行排序吗?
只是
-cat
它或者将输出文件从hdfs复制到本地fs并使用它
这个命令是否对wordcount进行排序,否则按字母顺序显示所有内容?
sort -k 2 -n -r
:对第2列排序(-k 2
)数字(-n
)相反地(-r
)命令。假设第二列包含count,这会将单词从最多的出现次数排序到最少的出现次数。至于不同的分类方法,我觉得这是更好的。如果要按字母顺序对内容排序,只需使用
sort
. 请参阅分拣手册。