我在Hadoop文件系统中有一个文件包含重复的记录/值。我知道通过程序我们可以轻松地获取重复。但我想尝试在CLI中使用HDFS命令以获得快速结果。示例:
apple,banana,mangoapple,mango,orange,banana,apple,orange
apple,banana,mango
apple,mango,orange,
banana,apple,orange
在上述文件中,apple出现了3次,因此是重复记录。我想通过hadoop中的命令使用hadoop fs命令查找所有重复项...
3vpjnl9f1#
你不能只使用Hadoop命令来完成它,你需要运行一个mapreduce/spark/hive/pig等作业来大规模地完成它。对于这样一个小例子,可以将它用管道连接到您经常使用的任何Unix命令。
hadoop fs -cat /path/to/file.txt | uniq -c
1条答案
按热度按时间3vpjnl9f1#
你不能只使用Hadoop命令来完成它,你需要运行一个mapreduce/spark/hive/pig等作业来大规模地完成它。
对于这样一个小例子,可以将它用管道连接到您经常使用的任何Unix命令。