如何使用Hadoop命令查找文件中的重复记录或值？

qrjkbowd 于 2022-11-01 发布在 Hadoop

关注(0)|答案(1)|浏览(309)

我在Hadoop文件系统中有一个文件包含重复的记录/值。我知道通过程序我们可以轻松地获取重复。但我想尝试在CLI中使用HDFS命令以获得快速结果。
示例：

apple,banana,mango
apple,mango,orange,
banana,apple,orange

在上述文件中，apple出现了3次，因此是重复记录。
我想通过hadoop中的命令使用hadoop fs命令查找所有重复项...

1条答案

你不能只使用Hadoop命令来完成它，你需要运行一个mapreduce/spark/hive/pig等作业来大规模地完成它。
对于这样一个小例子，可以将它用管道连接到您经常使用的任何Unix命令。

hadoop fs -cat /path/to/file.txt | uniq -c