我有如下的Dataframe。我希望能够找到一个平均值,并放入一个新的\u列。我可以找到平均使用自定义项,但不能把它列。如果你能在没有自定义项的情况下提供帮助,那就太好了。否则,欢迎对当前解决方案提供任何帮助。
from pyspark.sql.types import StructType,StructField
from pyspark.sql.types import StringType, IntegerType, ArrayType
data = [
("Smith","[55, 65, 75]"),
("Anna","[33, 44, 55]"),
("Williams","[9.5, 4.5, 9.7]"),
]
schema = StructType([
StructField('name', StringType(), True),
StructField('some_value', StringType(), True)
])
df = spark.createDataFrame(data = data, schema= schema)
df.show(truncate=False)
+--------+---------------+
|name |some_value |
+--------+---------------+
|Smith |[55, 65, 75] |
|Anna |[33, 44, 55] |
|Williams|[9.5, 4.5, 9.7]|
+--------+---------------+
解决办法是这样的,
array_mean = F.udf(lambda x: float(np.mean(x)), FloatType())
(从pyspark数组的find mean)返回一个Dataframe,而不是一个新列。
欢迎任何帮助。谢谢您。
2条答案
按热度按时间vvppvyoh1#
您有一个看起来像数组的字符串列,而不是数组列,因此还需要转换udf中的数据类型:
qq24tv8q2#
从pandasand newbie到Pypark,我走了很长的路。
条带[]
拆分为列表
爆炸
意思是