如何从pysparkDataframe中的字符串中删除特定字符？

ttygqcqt 于 2021-07-13 发布在 Spark

关注(0)|答案(3)|浏览(790)

我想从列中的值中删除最后两个字符。
pysparkDataframe的值如下所示：

1000.0
1250.0
3000.0
...

它们应该是这样的：

谨致问候

DataFrame apache-spark pyspark apache-spark-sql pyspark-dataframes

来源：https://stackoverflow.com/questions/66141218/how-to-delete-specific-caracters-from-a-string-in-a-pyspark-dataframe

3条答案

按热度按时间

zaq34kh61#

你可以用 substring 获取字符串直到索引 length - 2 :

import pyspark.sql.functions as F

df2 = df.withColumn(
    'col', 
    F.expr("substring(col, 1, length(col) - 2)")
)

赞(0）回复(0）举报 2021-07-13

ru9i0ody2#

你可以用 regexp_replace :

from pyspark.sql import functions as F

df1 = df.withColumn("value", F.regexp_replace("value", "(.*).{2}", "$1"))

df1.show()

# +-----+

# |value|

# +-----+

# | 1000|

# | 1250|

# | 3000|

# +-----+

或者 regexp_extract :

df1 = df.withColumn("value", F.regexp_extract("value", "(.*).{2}", 1))

赞(0）回复(0）举报 2021-07-13

n8ghc7c13#

你可以使用这个函数 substring_index 要提取周期之前的部分：

df = spark.createDataFrame([['1000.0'], ['2000.0']], ['col'])
df.withColumn('new_col', F.substring_index(F.col('col'), '.', 1))

结果：

+------+-------+
|   col|new_col|
+------+-------+
|1000.0|   1000|
|2000.0|   2000|
+------+-------+

赞(0）回复(0）举报 2021-07-13

我来回答

如何从pysparkDataframe中的字符串中删除特定字符？

3条答案

相关问题

热门标签

最新问答