我试图从字符串中提取电子邮件,并希望确保如果原始值的格式已经达到我的预期,它不会更改为Nan,而是保持原样。
示例输入
<class 'pandas.core.series.Series'>
1 <doe.b.john@gmail.com>
2 <doe.c.jane@gmail.com>
3 person.anonymous@hotmail.com
4 dent.arthur@space.com
我在用
# curr_emails is <class 'pandas.core.series.Series'>
curr_emails = curr_emails.str.extract(r"<([^<>]+)>").squeeze()` # regex extracts text between < >
我收到回复
但我更希望
一个类似的问题是张贴here,但我似乎不能使它与我目前的方法工作。
2条答案
按热度按时间1mrurvl11#
如果没有
<>
模式,则可以使用原始值填充它们。或者,如果<>
位于电子邮件的开头和结尾,则可以将其剥离pvabu6sv2#
尝试使用
str.replace
而不是str.extract
,将字符串开头的<
或字符串结尾的>
替换为''