我在hadoop hdfs目录中有数据。里面有100个json文件。我通过scalaapi将它们存储到hdfs目录,然后在spark-df中使用 spark.read.json(path)
. 之后,我将创建一个临时视图并执行sparksql并将其保存在不同的Dataframe(df)中。但问题是每隔2分钟就会有更多的json文件附加到同一个hdfs目录中。所以如果有100个文件,那么在2分钟的间隔之后,我在同一个目录中有120个json文件。如何在spark df中加载相同的数据并对其执行spark sql查询?
暂无答案!
目前还没有任何答案,快来回答吧!