spark：首先按列分组，如果特定列为null，则删除该组

kpbpu008 于 2021-07-09 发布在 Spark

关注(0)|答案(1)|浏览(376)

Pandas代码

df=df.groupby('col1').filter(lambda g: ~ (g.col2.isnull()).all())

如果col2中的所有元素都为null，则使用col1和remove group创建第一个组。我试过以下几点：
Pypark公司

df.groupBy("col1").filter(~df.col2.isNotNull().all())

apache-spark pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/66884452/spark-first-group-by-a-column-then-remove-the-group-if-specific-column-is-null

1条答案

按热度按时间

mi7gmzs61#

您可以对每个组进行非空计数，并使用筛选器删除计数为0的行：


# example dataframe

df.show()
+----+----+
|col1|col2|
+----+----+
|   1|null|
|   1|null|
|   2|   1|
|   2|null|
|   3|   1|
+----+----+

from pyspark.sql import functions as F, Window

df2 = df.withColumn(
    'not_null', 
    F.count('col2').over(Window.partitionBy('col1'))
).filter('not_null != 0').drop('not_null')

df2.show()
+----+----+
|col1|col2|
+----+----+
|   3|   1|
|   2|   1|
|   2|null|
+----+----+

赞(0）回复(0）举报 2021-07-09

我来回答

spark：首先按列分组，如果特定列为null，则删除该组

1条答案

相关问题

热门标签

最新问答