在databricks中从udf内部查询delta lake

ffdz8vbo 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(520)

在结构化流媒体中，需要对自定义项中的表执行一些查询。问题是，在udf中，如果我尝试使用spark.sql，就会出现空指针异常。在这里最好的方法是什么。
基本上，我需要从一个表流，然后使用该数据从另一个表执行一些范围查询。
如。

val appleFilter = udf((appleId : String) => {
     val query = "select count(*) from appleMart where appleId='"+appleId+"'"
     val appleCount = spark.sql(query).collect().head.getLong(0)
     (appleCount>0)
})

val newApple = apples.filter(appleFilter($"appleId"))

apache-spark spark-structured-streaming user-defined-functions databricks delta-lake

来源：https://stackoverflow.com/questions/63147904/querying-delta-lake-from-inside-of-udf-in-databricks

1条答案

按热度按时间

weylhg0b1#

对于这项任务来说，这并不是一种正确的方法—您不应该在udf中执行单独的查询，因为spark将无法并行化/优化它们。
更好的方法是在流式Dataframe和 appleMart Dataframe-这将允许spark优化所有操作。正如我从代码中了解到的，您只需要检查是否有具有给定id的苹果。在这种情况下，您只需执行内部联接—这将只留下在表中有行的id appleMart ，类似于：

val appleMart = spark.read.format("delta").load("path_to_delta")
val newApple = apples.join(appleMart, apples("appleId") === appleMart("appleId"))

如果你因为某种原因需要离开 apples 中不存在的条目 appleMart ，您可以使用 left 加入。。。
p、美国if appleMart 不会经常更改，可以缓存它。不过，对于流式处理作业，从性能的Angular 来看，类似cassandra的查找表可能会更好。

赞(0）回复(0）举报 2021-05-27

我来回答

在databricks中从udf内部查询delta lake

1条答案

相关问题

热门标签

最新问答