python 如何在pyspark中分解 Dataframe 的多个列

xxhby3vn 于 2022-11-21 发布在 Python

关注(0)|答案(6)|浏览(206)

我有一个数据框，它包含类似于下面的列中的列表。所有列中的列表的长度是不同的。

Name  Age  Subjects                  Grades
[Bob] [16] [Maths,Physics,Chemistry] [A,B,C]

我想以这样一种方式分解 Dataframe ，以获得以下输出-

Name Age Subjects Grades
Bob  16   Maths     A
Bob  16  Physics    B
Bob  16  Chemistry  C

我如何才能做到这一点？

python

来源：https://stackoverflow.com/questions/51082758/how-to-explode-multiple-columns-of-a-dataframe-in-pyspark

6条答案

按热度按时间

xnifntxz1#

PySpark在Python 2.4中添加了一个arrays_zip函数，它消除了使用Python UDF压缩数组的需要。

import pyspark.sql.functions as F
from pyspark.sql.types import *

df = sql.createDataFrame(
    [(['Bob'], [16], ['Maths','Physics','Chemistry'], ['A','B','C'])],
    ['Name','Age','Subjects', 'Grades'])
df = df.withColumn("new", F.arrays_zip("Subjects", "Grades"))\
       .withColumn("new", F.explode("new"))\
       .select("Name", "Age", F.col("new.Subjects").alias("Subjects"), F.col("new.Grades").alias("Grades"))
df.show()

+-----+----+---------+------+
| Name| Age| Subjects|Grades|
+-----+----+---------+------+
|[Bob]|[16]|    Maths|     A|
|[Bob]|[16]|  Physics|     B|
|[Bob]|[16]|Chemistry|     C|
+-----+----+---------+------+

赞(0）回复(0）举报 2022-11-21

watbbzwu2#

这是可行的，

import pyspark.sql.functions as F
from pyspark.sql.types import *

df = sql.createDataFrame(
    [(['Bob'], [16], ['Maths','Physics','Chemistry'], ['A','B','C'])],
    ['Name','Age','Subjects', 'Grades'])
df.show()

+-----+----+--------------------+---------+
| Name| Age|            Subjects|   Grades|
+-----+----+--------------------+---------+
|[Bob]|[16]|[Maths, Physics, ...|[A, B, C]|
+-----+----+--------------------+---------+

将udf与zip一起使用。explode所需的列必须在分解之前合并。

combine = F.udf(lambda x, y: list(zip(x, y)),
              ArrayType(StructType([StructField("subs", StringType()),
                                    StructField("grades", StringType())])))

df = df.withColumn("new", combine("Subjects", "Grades"))\
       .withColumn("new", F.explode("new"))\
       .select("Name", "Age", F.col("new.subs").alias("Subjects"), F.col("new.grades").alias("Grades"))
df.show()

+-----+----+---------+------+
| Name| Age| Subjects|Grades|
+-----+----+---------+------+
|[Bob]|[16]|    Maths|     A|
|[Bob]|[16]|  Physics|     B|
|[Bob]|[16]|Chemistry|     C|
+-----+----+---------+------+

赞(0）回复(0）举报 2022-11-21

bxfogqkk3#

派对迟到：-）

最简单的方法是使用inline，它没有python API，但受selectExpr支持。
第一个

赞(0）回复(0）举报 2022-11-21

n3schb8v4#

你试过这个吗

df.select(explode(split(col("Subjects"))).alias("Subjects")).show()

您可以将 Dataframe 转换为RDD。
对于RDD，您可以使用flatMap函数来分隔主题。

赞(0）回复(0）举报 2022-11-21

q1qsirdb5#

复制/粘贴功能，如果您需要在数据集中的大量列之间快速轻松地重复此操作

cols = ["word", "stem", "pos", "ner"]

def explode_cols(self, data, cols):
    data = data.withColumn('exp_combo', f.arrays_zip(*cols))
    data = data.withColumn('exp_combo', f.explode('exp_combo'))
    for col in cols:
        data = data.withColumn(col, f.col('exp_combo.' + col))

    return data.drop(f.col('exp_combo'))

result = explode_cols(data, cols)

欢迎光临：）

赞(0）回复(0）举报 2022-11-21

w7t8yxp56#

当分解多列时，只有当数组长度相同时，上述解决方案才能派上用场，但如果数组长度不同，最好将它们分别分解，每次取不同的值。

df = sql.createDataFrame(
    [(['Bob'], [16], ['Maths','Physics','Chemistry'], ['A','B','C'])],
    ['Name','Age','Subjects', 'Grades'])

df = df.withColumn('Subjects',F.explode('Subjects')).select('Name','Age','Subjects', 'Grades').distinct()

df = df.withColumn('Grades',F.explode('Grades')).select('Name','Age','Subjects', 'Grades').distinct()

df.show()

 +----+---+---------+------+
|Name|Age| Subjects|Grades|
+----+---+---------+------+
| Bob| 16|    Maths|     A|
| Bob| 16|  Physics|     B|
| Bob| 16|Chemistry|     C|
+----+---+---------+------+

赞(0）回复(0）举报 2022-11-21

我来回答

python 如何在pyspark中分解 Dataframe 的多个列

6条答案

相关问题

热门标签

最新问答