如何通过替换pyspark中的for循环来优化代码？

7tofc5zh 于 2024-01-06 发布在 Spark

关注(0)|答案(2)|浏览(176)

我必须在我的 Dataframe 中的所有列上实现下面的函数。但是使用for循环对spark性能有害，我如何避免使用for循环而仍然具有相同的逻辑和输出？我的函数接受一个 Dataframe ，并返回一个 Dataframe ，其中包含每个列的列名和所需的统计信息。
函数如下：

def get_null_count_and_percentage(df):
   
   columnList = df.columns
   total_count = df.count()
   null_counts = []
   for column_to_check in columnList:      
        null_count = df.filter(col(column_to_check).isNull()).count()
        null_perentage = (null_count / total_count) * 100
        null_counts.append((column_to_check, null_count, null_perentage))     
   result_df_count = (
     spark.createDataFrame(null_counts, ["column_name", "null_counts", "null_percentage"])
    .withColumn("null_percentage", round(col("null_percentage"), 3))
     )
   return result_df_count

字符串
我试着去找，但是找不到我的问题的确切解决方案。我试过map，reduce等，但是这些都不能解决这个问题。

pyspark

来源：https://stackoverflow.com/questions/77744467/how-can-i-optimize-the-code-by-replacing-the-for-loop-in-pyspark

2条答案

按热度按时间

iih3973s1#

下面的代码将获得所有列的空计数

from pyspark.sql.functions import when, count, col
df.select([count(when(col(c).isNull(), c)).alias(c) for c in df.columns]).show()

字符串

赞(0）回复(0）举报 2024-01-06

lsmepo6l2#

你可以把它简化成这样。首先计算你需要的任何stats并将其分配给struct（以避免重复的for循环）。然后使用stack将列转置为行，然后从struct中提取stats列。参见下面的例子：

from pyspark.sql.functions import count, struct, round
data = [
    (1, "John", 25, None, "Male"),
    (2, "Jane", None, 5000, "Female"),
    (3, "Bob", 30, 6000, None),
    (4, None, 35, 7000, "Male"),
    (5, "Alice", 40, 8000, "Female"),
]
# Define the schema for the DataFrame
columns = ["ID", "Name", "Age", "Salary", "Gender"]
# Create a DataFrame with null values
df = spark.createDataFrame(data, columns)
df.agg(
    *[
        struct(
            (count('*') - count(c)).alias('null_count'),
            round(((count('*') - count(c)) / count('*')) * 100, 2).alias('null_percentage')
        ).alias(f'{c}')
        for c in df.columns
    ]
).selectExpr(
    "stack(" + str(len(df.columns)) + ", " + ", ".join([f"'{c}', {c}" for c in df.columns]) + ") as (column_name, stats)"
).select(
    "column_name",
    "stats.null_count",
    "stats.null_percentage"
).show()
Output:
+-----------+----------+---------------+
|column_name|null_count|null_percentage|
+-----------+----------+---------------+
|         ID|         0|            0.0|
|       Name|         1|            0.2|
|        Age|         1|            0.2|
|     Salary|         1|            0.2|
|     Gender|         1|            0.2|
+-----------+----------+---------------+

字符串

展开查看全部

赞(0）回复(0）举报 2024-01-06

我来回答

如何通过替换pyspark中的for循环来优化代码？

2条答案

相关问题

热门标签

最新问答