def is_Data_Valid():
emp_df.withColumn(
"ValidationErrors",
f.when(
f.col("Name").rlike("^[a-zA-Z]+$") & f.col("Age").cast("int").isNotNull() & f.col(
"Experience").cast("int").isNotNull() & f.col("Year").cast("int").isNotNull() & f.col(
"Dept").rlike("^[a-zA-Z]+$"),
f.lit("0")
).otherwise(f.lit("Invalid data"))
)
我使用上面的函数进行验证,但在这里我只能验证一个 Dataframe “empdf”的数据,但存在另一个 Dataframe “emp1f_df”。
因此,为了避免重复,我可以将 Dataframe 传递给函数并调用函数两次吗?
2条答案
按热度按时间w8rqjzmb1#
你可以将dataframe传递给函数,见下面的代码。
您可以通过传递所需的 Dataframe 来调用该函数,如下所示:
hsvhsicv2#
只需将
DataFrame
作为参数传入,如下所示:记住总是从这样的函数中返回DataFrame-PySpark函数不是 * 就地 * 执行的,而是每个DataFrame都是不可变的,所以无论何时执行任何转换,都必须创建一个新的示例。