计算pyspark中列的中值

kcrjzv8t 于 2021-07-13 发布在 Spark

关注(0)|答案(1)|浏览(560)

我有一个如下所示的Dataframe：

+-----------+------------+
|parsed_date|       count|
+-----------+------------+
| 2017-12-16|           2|
| 2017-12-16|           2|
| 2017-12-17|           2|
| 2017-12-17|           2|
| 2017-12-18|           1|
| 2017-12-19|           4|
| 2017-12-19|           4|
| 2017-12-19|           4|
| 2017-12-19|           4|
| 2017-12-20|           1|
+-----------+------------+

我想计算整个“count”列的中位数，并将结果添加到一个新列。
我试过：

median = df.approxQuantile('count',[0.5],0.1).alias('count_median')

但我当然做错了，因为它会产生以下错误：

AttributeError: 'list' object has no attribute 'alias'

请帮忙。

python apache-spark pyspark apache-spark-sql Median

来源：https://stackoverflow.com/questions/66314430/compute-median-of-column-in-pyspark

1条答案

按热度按时间

llycmphe1#

您需要添加一列 withColumn 因为 approxQuantile 返回浮点数列表，而不是spark列。

import pyspark.sql.functions as F

df2 = df.withColumn('count_media', F.lit(df.approxQuantile('count',[0.5],0.1)[0]))

df2.show()
+-----------+-----+-----------+
|parsed_date|count|count_media|
+-----------+-----+-----------+
| 2017-12-16|    2|        2.0|
| 2017-12-16|    2|        2.0|
| 2017-12-17|    2|        2.0|
| 2017-12-17|    2|        2.0|
| 2017-12-18|    1|        2.0|
| 2017-12-19|    4|        2.0|
| 2017-12-19|    4|        2.0|
| 2017-12-19|    4|        2.0|
| 2017-12-19|    4|        2.0|
| 2017-12-20|    1|        2.0|
+-----------+-----+-----------+

您也可以使用 approx_percentile / percentile_approx spark sql中的函数：

import pyspark.sql.functions as F

df2 = df.withColumn('count_media', F.expr("approx_percentile(count, 0.5, 10) over ()"))

df2.show()
+-----------+-----+-----------+
|parsed_date|count|count_media|
+-----------+-----+-----------+
| 2017-12-16|    2|          2|
| 2017-12-16|    2|          2|
| 2017-12-17|    2|          2|
| 2017-12-17|    2|          2|
| 2017-12-18|    1|          2|
| 2017-12-19|    4|          2|
| 2017-12-19|    4|          2|
| 2017-12-19|    4|          2|
| 2017-12-19|    4|          2|
| 2017-12-20|    1|          2|
+-----------+-----+-----------+

赞(0）回复(0）举报 2021-07-13

我来回答

计算pyspark中列的中值

1条答案

相关问题

热门标签

最新问答