需要pyspark中值大于0的列列表

ctrmrzij 于 2021-05-27 发布在 Hadoop

关注(0)|答案(1)|浏览(363)

我有以下数据：

>>> dfStd1.show()
+---+----+------+-------+-----------------------------------------------+------+
| id|Name|Seq_Id|Carrier|CASE WHEN (NOT (Seq_Id = 1)) THEN 0 ELSE 12 END|string|
+---+----+------+-------+-----------------------------------------------+------+
|  0|   0|     0|      2|                                              0|     0|
+---+----+------+-------+-----------------------------------------------+------+

所以，这里我需要值大于0的列的名称。给，例如我需要 Carrier 列我需要在列表中存储这样的值。我尝试了下面的代码，但不起作用，也参考了许多链接，但没有运气：

>>> dfStd1[(dfStd1 > 0).any(axis=1)]
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: '>' not supported between instances of 'DataFrame' and 'int'

它抛出如上所述的错误。我甚至试着把它转换成Pandas，然后过滤掉，但没有结果。

hadoop python apache-spark pyspark pandas

来源：https://stackoverflow.com/questions/58449736/need-columns-list-whose-value-is-greater-than-0-in-pyspark

1条答案

按热度按时间

pkwftd7m1#

首先需要数字列：

schema = {col: col_type for col, col_type in df.dtypes}
numeric_cols = [
            col
            for col, col_type in schema.items()
            if col_type in "int double bigint".split()
        ]

然后，可以使用以下公式计算列中大于0的元素数：

from pyspark.sql.functions import when, col

count_cols_gt_zero = [
            json.loads(x)
            for x in self.data.select(
                [count(when(col(c) > 0, c)).alias(c) for c in self.schema]
            )
            .toJSON()
            .collect()
        ][0]

最后：

final = [x for x, y in count_cols_gt_zero.items() if y > 0]

赞(0）回复(0）举报 2021-05-27

我来回答

需要pyspark中值大于0的列列表

1条答案

相关问题

热门标签

最新问答