arraytype pyspark列中唯一元素行的平均值

qpgpyjmq 于 2021-05-29 发布在 Spark

关注(0)|答案(2)|浏览(333)

我有一个大的pysparkDataframe（23m行），格式如下：

names, sentiment
["Lily","Kerry","Mona"], 10
["Kerry", "Mona"], 2
["Mona"], 0

我想计算“名称”列中每个唯一名称的平均情绪，结果如下：

name, sentiment
"Lily", 10
"Kerry", 6
"Mona", 4

apache-spark pyspark apache-spark-sql user-defined-functions

来源：https://stackoverflow.com/questions/62436130/mean-across-rows-of-unique-elements-in-arraytype-pyspark-column

2条答案

按热度按时间

mctunoxg1#

val avgDF = Seq((Seq("Lily","Kerry","Mona"), 10),
      (Seq("Kerry", "Mona"), 2),
      (Seq("Mona"), 0)
  ).toDF("names", "sentiment")

  val avgDF1 = avgDF.withColumn("name", explode('names))
  val avgResultDF = avgDF1.groupBy("name").agg(avg(col("sentiment")))

  avgResultDF.show(false)
  //      +-----+--------------+
  //      |name |avg(sentiment)|
  //      +-----+--------------+
  //      |Lily |10.0          |
  //      |Kerry|6.0           |
  //      |Mona |4.0           |
  //      +-----+--------------+

赞(0）回复(0）举报 2021-05-29

bjp0bcyl2#

只需分解数组，然后分组
Pypark当量

import pyspark.sql.functions as f
df1 = df.select(f.explode('names').alias('name'),'sentiment')

df1.groupBy('name').agg(f.avg('sentiment').alias('sentiment')).show()

赞(0）回复(0）举报 2021-05-29

我来回答

arraytype pyspark列中唯一元素行的平均值

2条答案

相关问题

热门标签

最新问答