从文件读取数据时触发“modifiedbefore”选项

aij0ehis 于 2021-07-14 发布在 Spark

关注(0)|答案(1)|浏览(458)

我正在使用spark-2.4从hadoop读取文件。要求读取修改时间早于某个给定值的文件。
我看到了spark文档中提到的选项 modifiedBefore ，请参考以下spark文档修改时间路径过滤器，但我不确定它是否在spark 2.4中可用，如果不可用，如何实现这一点？

apache-spark apache-spark-sql spark-streaming

来源：https://stackoverflow.com/questions/66668759/spark-modifiedbefore-option-while-reading-data-from-files

1条答案

按热度按时间

xmjla07d1#

选择 modifiedBefore 以及 modifiedAfter 从spark 3+开始提供，只能批量使用，不能流式传输。对于spark 2.4，可以使用hadoop文件系统 globStatus 方法并使用 getModificationTime .
下面是一个函数示例，该函数接受路径和阈值，并返回使用阈值筛选的文件路径列表：

import org.apache.hadoop.fs.Path
def getFilesModifiedBefore(path: Path, modifiedBefore: String) = {
  val format = new java.text.SimpleDateFormat("yyyy-MM-dd'T'HH:mm:ss")
  val thresHoldTime = format.parse(modifiedBefore).getTime()
  val files = path.getFileSystem(sc.hadoopConfiguration).globStatus(path)
  files.filter(_.getModificationTime < thresHoldTime).map(_.getPath.toString)
}

然后把它和 spark.read.csv :

val df = spark.read.csv(getFilesModifiedBefore(new Path("/mypath"), "2021-03-17T10:46:12"):_*)

展开查看全部

赞(0）回复(0）举报 2021-07-14

我来回答

从文件读取数据时触发“modifiedbefore”选项

1条答案

相关问题

热门标签

最新问答