将列表为StringType的PySpark数据框列转换为ArrayType

vzgqcmou 于 2022-12-17 发布在 Spark

关注(0)|答案(1)|浏览(145)

我得到了一个输入pysaprk Dataframe ，如下所示：

df = spark.createDataFrame(
    [("1111", "[clark, john, silvie]"),
     ("2222", "[bob, charles, seth]"),
     ("3333", "[jane, luke, adam]"),  
    ],
    ["column1", "column2"]
)

| column1 | column2 |
| ------- | ------- |
| 1111    | [clark kent, john, silvie] |
| 2222    | [bob, charles, seth rog]  |
| 3333    | [jane, luke max, adam]    |

我的目标是将列和值从StringType（）中的column2转换为StringType（）的ArrayType（）。
但是我只得到了将其转换为ArrayType的部分结果，但是字符串列表中包含多个单词的那些值被单独拆分，如下所示：

from pyspark.sql.functions import expr

df_out = df.withColumn('column2', expr(r"regexp_extract_all(column2, '(\\w+)', 1)"))

这会得到如下结果（我的正则表达式技能不是很好）：

| column1 | column2 |
| ------- | ------- |
| 1111    | ["clark", "kent", "john", "silvie"] |
| 2222    | ["bob", "charles", "seth", "rog"]  |
| 3333    | ["jane", "luke", "max", "adam"]    |

但实际上我希望得到这样的东西：

| column1 | column2 |
| ------- | ------- |
| 1111    | ["clark kent", "john", "silvie"] |
| 2222    | ["bob", "charles", "seth rog"]  |
| 3333    | ["jane", "luke max", "adam"]    |

pyspark

来源：https://stackoverflow.com/questions/74829335/convert-pyspark-dataframe-column-with-list-in-stringtype-to-arraytype

1条答案

按热度按时间

nmpmafwu1#

你的输出与输入相比不好。无论如何修改输入。让我知道这是否是你想要的
使用translate替换角括号。用逗号分隔结果

df = spark.createDataFrame(
    [("1111", "[clark kent, john, silvie]"),
     ("2222", "[bob, charles, seth rog]"),
     ("3333", "[jane, luke max, adam]"),  
    ],
    ["column1", "column2"]
)


df.withColumn('column2',split(translate('column2','[]',''),'\,')).show(truncate=False)

+-------+----------------------------+
|column1|column2                     |
+-------+----------------------------+
|1111   |[clark kent,  john,  silvie]|
|2222   |[bob,  charles,  seth rog]  |
|3333   |[jane,  luke max,  adam]    |
+-------+----------------------------+

赞(0）回复(0）举报 2022-12-17

我来回答

将列表为StringType的PySpark数据框列转换为ArrayType

1条答案

相关问题

热门标签

最新问答