是否可以将dataframe作为参数传递给pyspark中的函数

np8igboo 于 2022-12-03 发布在 Spark

关注(0)|答案(2)|浏览(197)

def is_Data_Valid():
    emp_df.withColumn(
        "ValidationErrors",
        f.when(
            f.col("Name").rlike("^[a-zA-Z]+$") & f.col("Age").cast("int").isNotNull() & f.col(
                "Experience").cast("int").isNotNull() & f.col("Year").cast("int").isNotNull() & f.col(
                "Dept").rlike("^[a-zA-Z]+$"),
            f.lit("0")
        ).otherwise(f.lit("Invalid data"))
    )

我使用上面的函数进行验证，但在这里我只能验证一个 Dataframe “empdf”的数据，但存在另一个 Dataframe “emp1f_df”。
因此，为了避免重复，我可以将 Dataframe 传递给函数并调用函数两次吗？

pyspark

来源：https://stackoverflow.com/questions/74641272/can-we-pass-dataframe-as-a-parameter-to-a-function-in-pyspark

2条答案

按热度按时间

w8rqjzmb1#

你可以将dataframe传递给函数，见下面的代码。

def is_Data_Valid(df):
    df = df.withColumn(
        "ValidationErrors",
        f.when(
            f.col("Name").rlike("^[a-zA-Z]+$") & f.col("Age").cast("int").isNotNull() & f.col(
                "Experience").cast("int").isNotNull() & f.col("Year").cast("int").isNotNull() & f.col(
                "Dept").rlike("^[a-zA-Z]+$"),
            f.lit("0")
        ).otherwise(f.lit("Invalid data"))
    )

    return df

您可以通过传递所需的 Dataframe 来调用该函数，如下所示：

df_1_checked = is_Data_Valid(emp_df)
df_2_checked = is_Data_Valid(emp_1_df)

赞(0）回复(0）举报 2022-12-03

hsvhsicv2#

只需将DataFrame作为参数传入，如下所示：

from pyspark.sql import DataFrame

def is_Data_Valid(df: DataFrame) -> DataFrame:
    return df.withColumn(
        "ValidationErrors",
        f.when(
            f.col("Name").rlike("^[a-zA-Z]+$") & f.col("Age").cast("int").isNotNull() & f.col(
                "Experience").cast("int").isNotNull() & f.col("Year").cast("int").isNotNull() & f.col(
                "Dept").rlike("^[a-zA-Z]+$"),
            f.lit("0")
        ).otherwise(f.lit("Invalid data"))
    )

记住总是从这样的函数中返回DataFrame-PySpark函数不是 * 就地 * 执行的，而是每个DataFrame都是不可变的，所以无论何时执行任何转换，都必须创建一个新的示例。

赞(0）回复(0）举报 2022-12-03

我来回答

是否可以将dataframe作为参数传递给pyspark中的函数

2条答案

相关问题

热门标签

最新问答