PySpark DataFrame -计算每个月的第一天和最后一天余额

ukxgm1gy 于 2024-01-06 发布在 Spark

关注(0)|答案(1)|浏览(171)

我正在使用一个PySpark DataFrame，其中有包含'name'，'date'，'month'和'balance'的列。我想为DataFrame中的每个'name'计算每个月的第一天和最后一天的余额，并将这些值填充到新列'balance_on_first_day'和'balance_on_last_day'中，分别对应于'name'和'month'组。
我尝试过使用first（）和last（）这样的窗口函数来计算这些值，但我遇到了一些问题，其中有些行的'balance_on_first_day'或'balance_on_last_day'值为NULL。
下面是我尝试的一个例子：

from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.window import Window
# Assuming spark is your SparkSession and df is your DataFrame
# Replace 'name', 'date', 'month', 'balance' with your actual column names
# Example DataFrame creation
data = [
    ("John", "2023-01-05", 1, 1000),
    ("Alice", "2023-01-10", 1, 1200),
    ("John", "2023-02-15", 2, 1500),
    ("Alice", "2023-02-20", 2, 1800),
    ("John", "2023-03-01", 3, 2000),
    ("Alice", "2023-03-25", 3, 2200),
    ("John", "2023-03-31", 3, 2100),
]
columns = ["name", "date", "month", "balance"]
df = spark.createDataFrame(data, columns)
# Convert 'date' column to date type
df = df.withColumn('date', F.col('date').cast('date'))
# Define windows for first and last day balances
window_first_day = Window.partitionBy('name', 'month').orderBy('date').rowsBetween(Window.unboundedPreceding, Window.unboundedFollowing)
window_last_day = Window.partitionBy('name', 'month').orderBy('date').rowsBetween(Window.unboundedFollowing, Window.unboundedFollowing)
# Calculate first and last day balances using window functions and coalesce
df = df.withColumn('balance_on_first_day', F.coalesce(F.first('balance').over(window_first_day), F.lit(0))) \
    .withColumn('balance_on_last_day', F.coalesce(F.last('balance').over(window_last_day), F.lit(0)))
# Show the updated DataFrame
df.show()

字符串
但是，这会为每个名称-月份对生成2行，一行的'balance_on_last_day'为NULL，另一行的'balance_on_first_day'为NULL。
谢谢你，

pyspark

来源：https://stackoverflow.com/questions/77687537/pyspark-dataframe-calculate-first-and-last-day-balances-for-each-month-and-nam

1条答案

按热度按时间

u5i3ibmn1#

我假设你的数据实际上有balance值为NULL的行。
在这种情况下，您只需要对first和last函数调用使用ignorenulls=True来获取第一个/最后一个非NULL值。

在这里，我编辑了您的示例数据，以包含一些NULL情况。
由于窗口实际上是相同的，因此不需要指定两次
最后，如果您不希望在所有余额实际上都为NULL的情况下使用NULL，我更喜欢使用fillna而不是coalesce

data = [
    ("Alice", "2023-01-10", 1, 1200),
    ("Alice", "2023-02-20", 2, 1800),
    ("Alice", "2023-03-25", 3, 2200),
    ("Alice", "2023-04-01", 4, None),
    ("John", "2023-01-05", 1, 1000),
    ("John", "2023-02-15", 2, 1500),
    ("John", "2023-03-01", 3, 2000),
    ("John", "2023-03-02", 3, None),
    ("John", "2023-03-31", 3, 2100),
    ("John", "2023-04-01", 4, None),
    ("John", "2023-04-02", 4, 200),
    ("John", "2023-04-03", 4, 300),
    ("John", "2023-04-04", 4, 400),
    ("John", "2023-04-05", 4, None),
]
columns = ["name", "date", "month", "balance"]
df = spark.createDataFrame(data, columns)
# Convert 'date' column to date type
df = df.withColumn('date', F.col('date').cast('date'))
# Only need to define one window
window = Window\
  .partitionBy('name', 'month')\
  .orderBy('date')\
  .rowsBetween(Window.unboundedPreceding, Window.unboundedFollowing)
# Call first-last with ignorenulls=True
df = df\
  .withColumn('first', F.first('balance', ignorenulls=True).over(window))\
  .withColumn('last',  F.last('balance', ignorenulls=True).over(window))
# Fill NULL with zeroes if necessary
df = df.fillna(0, ['first', 'last'])
# Show the updated DataFrame
df.orderBy('name', 'month').show()

个字符

展开查看全部

赞(0）回复(0）举报 2024-01-06

我来回答

PySpark DataFrame -计算每个月的第一天和最后一天余额

1条答案

相关问题

热门标签

最新问答