在spark df中加载增量数据文件

bwitn5fc  于 2021-07-12  发布在  Spark
关注(0)|答案(0)|浏览(172)

我在hadoop hdfs目录中有数据。里面有100个json文件。我通过scalaapi将它们存储到hdfs目录,然后在spark-df中使用 spark.read.json(path) . 之后,我将创建一个临时视图并执行sparksql并将其保存在不同的Dataframe(df)中。但问题是每隔2分钟就会有更多的json文件附加到同一个hdfs目录中。所以如果有100个文件,那么在2分钟的间隔之后,我在同一个目录中有120个json文件。如何在spark df中加载相同的数据并对其执行spark sql查询?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题