我正在处理pysparkDataframe,我有一列
words (array<string> type)
. 要从单词中删除数值和数字值,regex模式应该是什么?
+---+----------------------------------------------+
|id | words |
+---+----------------------------------------------+
|564|[fhbgtrj5, 345gjhg, ghth578ghu, 5897, fhrfu44]|
+---+----------------------------------------------+
预期产量:
+---+----------------------------------------------+
|id |words |
+---+----------------------------------------------+
|564| [fhbgtrj, gjhg, ghthghu, fhrfu]|
+---+----------------------------------------------+
请帮忙。
1条答案
按热度按时间xv8emn3q1#
你可以用
transform
一起regexp_replace
删除数字,并使用array_remove
删除空条目(来自只包含数字的条目)。