pyspark SQL查询：计数带条件的非重复值

hs1rzwqc 于 2023-01-31 发布在 Apache

关注(0)|答案(3)|浏览(140)

我有一个 Dataframe 如下：

+-----------+------------+-------------+-----------+
| id_doctor | id_patient | consumption | type_drug |
+-----------+------------+-------------+-----------+
| d1        | p1         |        12.0 | bhd       |
| d1        | p2         |        10.0 | lsd       |
| d1        | p1         |         6.0 | bhd       |
| d1        | p1         |        14.0 | carboxyl  |
| d2        | p1         |        12.0 | bhd       |
| d2        | p1         |        13.0 | bhd       |
| d2        | p2         |        12.0 | lsd       |
| d2        | p1         |         6.0 | bhd       |
| d2        | p2         |        12.0 | bhd       |
+-----------+------------+-------------+-----------+

我想计算不同的病人服用bhd与消费〈16.0每个医生。
我尝试了以下查询，但它不起作用：

dataframe.groupBy(col("id_doctor")).agg(
    countDistinct(col("id_patient")).where(
        col("type_drug") == "bhd" & col("consumption") < 16.0
    )
)

有人帮忙吗？
谢谢!

apache-spark

来源：https://stackoverflow.com/questions/54004970/pyspark-sql-query-count-distinct-values-with-conditions

3条答案

按热度按时间

piztneat1#

PySpark中的另一个解决方案，无需添加另一个色谱柱：

dataframe.groupBy("id_doctor").agg(
    F.countDistinct(
        F.when(
            col("type_drug") == "bhd" & col("consumption") < 16.0, col("id_doctor")
        ).otherwise(None)
    )
)

赞(0）回复(0）举报 2023-01-31

5lhxktic2#

只需在 Dataframe 上使用where-此版本删除计数为0的id_doctor：

dataframe.where(
    col("type_drug") == "bhd" & col("consumption") < 16.0
).groupBy(
    col("id_doctor")
).agg(
    countDistinct(col("id_patient"))
)

使用此语法，您可以保留所有“doctor”：

dataframe.withColumn(
    "fg",
    F.when(
        (col("type_drug") == "bhd") 
        & (col("consumption") < 16.0),
        col("id_patient")
    )
).groupBy(
    col("id_doctor")
).agg(
    countDistinct(col("fg"))
)

赞(0）回复(0）举报 2023-01-31

bn31dyow3#

和不添加额外列的解决方案（Scala）

dataframe
    .groupBy("id_doctor")
    .agg(
        countDistinct(when(col("type_drug")==="bhd" && col("consumption") < 16.0))
    )

赞(0）回复(0）举报 2023-01-31

我来回答

pyspark SQL查询：计数带条件的非重复值

3条答案

相关问题

热门标签

最新问答