我有一个Pypark数据框
import pandas as pd
foo = pd.DataFrame({'col':[['a_b', 'bad'],['a_a', 'good'],[]]})
我想过滤掉 'bad'
是在 list
的 col
我尝试先创建一个二进制列,然后在此列上进行筛选:
from pyspark.sql import functions as f
foo = foo.withColumn('at_least_one_bad', f.when(f.col("col").array_contains("bad"),f.lit(1)).otherwise(f.lit(0)))
但我犯了个错误
typeerror:“column”对象不可调用
有什么想法吗?
1条答案
按热度按时间7nbnzgx91#
您的语法有点不正确-请尝试以下代码: