计算组内值的比例

jm81lzqq 于 2021-07-13 发布在 Spark

关注(0)|答案(2)|浏览(418)

我试图计算特定值在子组中特定列中出现的比例。
示例Dataframe

pdf = pd.DataFrame({
    'id': [1, 1, 1, 1, 2, 2, 2, 3, 3, 3],
    'letter': ['L', 'A', 'L', 'L', 'L', 'L', 'L', 'A', 'L', 'L']
})
df = spark.createDataFrame(pdf)
df.show()

我试着依赖这个答案，但代码如下

df\
    .groupby('id')\
    .agg((count(col('letter') == 'L') / count(col('letter'))).alias('prop'))\
    .show()

我得到了一列 1.0 ，即使我改变了 'L' 至 'A' .
我所期望的产出是，对于每一组来说 'L' 组内值：

+---+--------+
| id|    prop|
+---+--------+
|  1|    0.75|
|  2|     1.0|
|  3| 0.66667|
+---+--------+

python apache-spark pyspark apache-spark-sql pyspark-dataframes

来源：https://stackoverflow.com/questions/66099645/compute-proportion-of-values-within-groups

2条答案

按热度按时间

iibxawm41#

在计算之前，需要使用 when :

df\
    .groupby('id')\
    .agg((count(when(col('letter') == 'L', 1)) / count(col('letter'))).alias('prop'))\
    .show()

请注意 count 只统计非空条目。它不仅重要 true 条目，正如您在代码中所期望的那样。如果您使用 count_if 来自spark sql。

赞(0）回复(0）举报 2021-07-13

u2nhd7ah2#

你可以用 sum 与 when 而是计算 L :

df.groupby('id')\
  .agg((F.sum(F.when(F.col('letter') == 'L', 1)) / F.count(F.col('letter'))).alias('prop'))\
  .show()

这将仅在非空值中提供比例。如果要计算所有行，请除以 count("*") 而不是 count(col('letter')) .

赞(0）回复(0）举报 2021-07-13

我来回答

计算组内值的比例

2条答案

相关问题

热门标签

最新问答