我正在使用mrjob处理一批文件并获得一些统计数据。我知道我可以在一个文件上运行mapreduce作业,比如
python count.py < some_input_file > output
但是我怎样才能给脚本提供一个文件目录呢?文件目录结构如下 folder/subfolders/files ,有什么建议吗?
folder/subfolders/files
irtuqstp1#
最后,我发现我可以指定一个目录作为输入路径,hadoop将处理该目录中的所有文件。在我的例子中,我还有包含输入文件的子目录。hadoop不会递归地遍历目录,默认情况下会引发错误。一个常见的技巧是使用通配符glob-like
python count.py hdfs://master-host/directory/*/*.txt > result
1条答案
按热度按时间irtuqstp1#
最后,我发现我可以指定一个目录作为输入路径,hadoop将处理该目录中的所有文件。
在我的例子中,我还有包含输入文件的子目录。hadoop不会递归地遍历目录,默认情况下会引发错误。一个常见的技巧是使用通配符glob-like