Pyspark使用列中的正则表达式删除URL的部分内容

bvhaajcl  于 2023-10-15  发布在  Spark
关注(0)|答案(1)|浏览(142)

我想在pyspark得到这个结果。我有请求URL列

tyu7yeag

tyu7yeag1#

您可以执行两次,并获得所需的结果

from pyspark.sql.functions import F

df = df.withColumn(
            "full_url", F.regexp_extract(F.col("request_url"), "^GET ([^? ]*)", 1)
        )

df = df.withColumn(
            "short_url", F.regexp_extract(F.col("request_url"), "^GET ([^.]*)[.]", 1)
        )

相关问题