我必须在一个以“\”(下划线)开头的文件夹中处理一堆文件。有没有办法强迫hadoop查看这些文件夹?我需要写我自己的文件输入格式吗?
y53ybaqx1#
最简单的方法可能是自己创建输入文件列表,例如 FileSystem.globStatus 然后使用手动将它们添加到作业中 FileInputFormat.addInputPath . FileSystem.globStatus 默认情况下不过滤隐藏文件。
FileSystem.globStatus
FileInputFormat.addInputPath
1条答案
按热度按时间y53ybaqx1#
最简单的方法可能是自己创建输入文件列表,例如
FileSystem.globStatus
然后使用手动将它们添加到作业中FileInputFormat.addInputPath
.FileSystem.globStatus
默认情况下不过滤隐藏文件。