在运行时评估pyspark udf参数

e4yzc0pl  于 2021-05-17  发布在  Spark
关注(0)|答案(1)|浏览(475)

我有一个注册到pyspark的udf,它的任务是通过使用函数的参数a和b构建url来查询web。在运行时,它计算 Column<b'(colA + colB)'> 在打印报表时。
如何得到参数a和b中的字符串?

  1. def udf_func(a, b):
  2. print(a + b)
  3. return requests.get(a + b)
  4. get = udf(udf_func, ByteType())
  5. df = df.withColumn("output", get(col("colA"), col("colB")))

谢谢

unftdfkk

unftdfkk1#

您可以按以下方式修改函数:

  1. def udf_func(a, b): return requests.get(a + b)
  2. get = udf(lambda a,b : udf_func(a,b), ByteType())
  3. df = df.withColumn("output", get(col("colA"), col("colB")))

我不相信你可以打印自定义项内的值,因此我已经删除了它,但这应该为你工作。

相关问题