我重复了很多类似以下的代码:
trim(concat(ifnull(`field1`, ''), ' ', ifnull(`field2`, ''))) as my_field
如果能够定义一个名为 trim_and_concat
它接受任意数量的字段,将它们串联起来,并修剪结果。我可以写一个自定义项,但是那样的话,我就会在所有的pyspark优化上失败。
是否可以定义一个结合本地sparksql方法的函数,以避免与udf相关联的典型优化丢失?
我知道那件事 create_function
语法,但据我所知,这只是创建udf的另一种方法,仍然需要用scala或python编写函数。
暂无答案!
目前还没有任何答案,快来回答吧!