pyspark：在某些情况下，为什么我不能将列作为属性引用？

6qfn3psc 于 2021-07-12 发布在 Spark

关注(0)|答案(1)|浏览(253)

假设我有以下代码：

df = df \
    .withColumn('this_month_sales', df.units * df.rate) \
    .withColumn('this_year_sales_v1', df.this_month_sales + df.sales_till_last_month) \
    .withColumn('this_year_sales_v2', F.col('this_month_sales') + df.sales_till_last_month)

在这个代码中，
公式 this_year_sales_v1 会导致失败 this_month_sales 列不存在或不是属性或类似的内容。
公式 this_year_sales_v2 会有用的
为什么呢？他们本质上不是在做同样的事情吗？

apache-spark pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/66476769/pyspark-in-certain-situations-why-am-i-not-able-to-refer-to-columns-as-attribu

1条答案

按热度按时间

lvmkulzt1#

因为在第三行 this_month_sales 原始列中不存在列 df . 它只在第二行中创建，但是 df 变量尚未更新。
如果你这样做

df = df \
    .withColumn('this_month_sales', df.units * df.rate)

df = df \
    .withColumn('this_year_sales_v1', df.this_month_sales + df.sales_till_last_month)

那么它应该会起作用，因为 this_month_sales 列现在是的属性 df 当第二行运行时。
一般来说，我更喜欢使用 F.col 为了防止这种问题。

赞(0）回复(0）举报 2021-07-12

我来回答

pyspark：在某些情况下，为什么我不能将列作为属性引用？

1条答案

相关问题

热门标签

最新问答