如何使用Hadoop命令查找文件中的重复记录或值?

qrjkbowd  于 2022-11-01  发布在  Hadoop
关注(0)|答案(1)|浏览(309)

我在Hadoop文件系统中有一个文件包含重复的记录/值。我知道通过程序我们可以轻松地获取重复。但我想尝试在CLI中使用HDFS命令以获得快速结果。
示例:

  1. apple,banana,mango
  2. apple,mango,orange,
  3. banana,apple,orange

在上述文件中,apple出现了3次,因此是重复记录。
我想通过hadoop中的命令使用hadoop fs命令查找所有重复项...

3vpjnl9f

3vpjnl9f1#

你不能只使用Hadoop命令来完成它,你需要运行一个mapreduce/spark/hive/pig等作业来大规模地完成它。
对于这样一个小例子,可以将它用管道连接到您经常使用的任何Unix命令。

  1. hadoop fs -cat /path/to/file.txt | uniq -c

相关问题