如何在pyspark中过滤字符串numpy数组列

k7fdbhmy 于 2021-07-14 发布在 Spark

关注(0)|答案(1)|浏览(481)

我有一个Pypark数据框

import pandas as pd
foo = pd.DataFrame({'col':[['a_b', 'bad'],['a_a', 'good'],[]]})

我想过滤掉 'bad' 是在 list 的 col 我尝试先创建一个二进制列，然后在此列上进行筛选：

from pyspark.sql import functions as f
foo = foo.withColumn('at_least_one_bad', f.when(f.col("col").array_contains("bad"),f.lit(1)).otherwise(f.lit(0)))

但我犯了个错误
typeerror:“column”对象不可调用
有什么想法吗？

python apache-spark pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/67007503/how-to-filter-on-a-string-numpy-array-column-in-pyspark

1条答案

按热度按时间

7nbnzgx91#

您的语法有点不正确-请尝试以下代码：

import pyspark.sql.functions as f

foo2 = foo.withColumn('at_least_one_bad', f.array_contains('col', 'bad').cast('int'))

foo2.show()
+-----------+----------------+
|        col|at_least_one_bad|
+-----------+----------------+
| [a_b, bad]|               1|
|[a_a, good]|               0|
|         []|               0|
+-----------+----------------+

赞(0）回复(0）举报 2021-07-14

我来回答

如何在pyspark中过滤字符串numpy数组列

1条答案

相关问题

热门标签

最新问答