有没有一种方法可以定义纯sqludf,它仍然利用pyspark的所有优化?

yk9xbfzb  于 2021-07-14  发布在  Spark
关注(0)|答案(0)|浏览(237)

我重复了很多类似以下的代码:

trim(concat(ifnull(`field1`, ''), ' ', ifnull(`field2`, ''))) as my_field

如果能够定义一个名为 trim_and_concat 它接受任意数量的字段,将它们串联起来,并修剪结果。我可以写一个自定义项,但是那样的话,我就会在所有的pyspark优化上失败。
是否可以定义一个结合本地sparksql方法的函数,以避免与udf相关联的典型优化丢失?
我知道那件事 create_function 语法,但据我所知,这只是创建udf的另一种方法,仍然需要用scala或python编写函数。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题