我在spark流中使用 dstream.saveAsObjectFiles("/temObj")
方法在hdfs中显示多个文件。
temObj-1506338844000
temObj-1506338848000
temObj-1506338852000
temObj-1506338856000
temObj-1506338860000
我想在读取所有temobj文件后删除所有temobj文件。在spark中,下注的方式是什么。我试过了
val hdfs = org.apache.hadoop.fs.FileSystem.get(new java.net.URI("hdfs://localhost:9000"), hadoopConf)
hdfs.delete(new org.apache.hadoop.fs.Path(Path), true)
但它一次只能删除一个文件夹
1条答案
按热度按时间gev0vcfq1#
很遗憾,delete不支持globs。
你可以用
globStatus
然后逐个遍历文件/目录并删除它们。或者,您可以使用
sys.process
执行shell命令