如何替换pyspark中的特殊字符？

y3bcpkx1 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(792)

我对pyspark还比较陌生，我正在尝试用pyspark做一些文本预处理。我有一个专栏 Name 以及 ZipCode 属于sparkDataframe new_df . “name”列包含如下值 WILLY:S MALMÖ, EMPORIA 以及 ZipCode 包含如下值 123 45 这也是一根弦。我想做的是我想删除像 : , , 等，并希望删除之间的空间 ZipCode . 我尝试了以下方法，但似乎没有任何效果：

new_df = new_df.withColumn('Name', sfn.regexp_replace('Name', r',' , ' '))
new_df = new_df.withColumn('ZipCode', sfn.regexp_replace('ZipCode', r' ' , ''))

我也从so和其他网站上试过其他东西。似乎什么都没用。

apache-spark pyspark sql-function nlp nltk

来源：https://stackoverflow.com/questions/61733951/how-to-replace-special-charachters-in-pyspark

1条答案

按热度按时间

vlju58qv1#

使用 [,|:] 匹配 , 或者 : 并替换为空格 ' ' 在“名称”列和“zipcode”中搜索空格 ' ' 并替换为空字符串 '' . Example: ```
new_df.show(10,False)

+-----------------------+-------+

|Name |ZipCode|

+-----------------------+-------+

|WILLY:S MALMÃ–, EMPORIA|123 45 |

+-----------------------+-------+

new_df.withColumn('Name', regexp_replace('Name', r'[,|:]' , ' ')).
withColumn('ZipCode', regexp_replace('ZipCode', r' ' , '')).
show(10,False)

or

new_df.withColumn('Name', regexp_replace('Name', '[,|:]' , ' ')).
withColumn('ZipCode', regexp_replace('ZipCode', '\s+' , '')).
show(10,False)

+-----------------------+-------+

|Name |ZipCode|

+-----------------------+-------+

|WILLY S MALMÃ– EMPORIA|12345 |

+-----------------------+-------+

赞(0）回复(0）举报 2021-05-27

我来回答

如何替换pyspark中的特殊字符？

1条答案

+-----------------------+-------+

|Name |ZipCode|

+-----------------------+-------+

|WILLY:S MALMÃ–, EMPORIA|123 45 |

+-----------------------+-------+

or

+-----------------------+-------+

|Name |ZipCode|

+-----------------------+-------+

|WILLY S MALMÃ– EMPORIA|12345 |

+-----------------------+-------+

相关问题

热门标签

最新问答