我有一个csv文件,看起来像下面:
Halley Bailey - 1998
Hayley Orrantia (1994-) American actress, singer, and songwriter
Ken Watanabe (actor)
etc...
我想删除括号中的项目,以及一些名称中的逗号,这样 Dataframe 看起来就像这样:
Halley Bailey
Hayley Orrantia
Ken Watanabe
我尝试使用下面的代码,它成功地删除了名称后面的日期,但没有删除逗号后面的括号或内容,我如何扩展它以便它可以替换所有这些项?
regex = '|'.join(map(re.escape, df['actors']))
2条答案
按热度按时间vcudknz31#
尝试使用以下
'(^[^\(|^\-]+)'
,返回-
或(
之前的所有匹配项:返回:
xzlaal3s2#
假设csv内容存储在 Dataframe
df
的列csv
中,并且df
如下所示(如果不知道如何将CSV读入Pandas Dataframe ,请参见下面的第一个注解)如果要创建一个名为
actors
的新列,考虑到actor全名仅由2
个单词组成,将执行以下操作另一方面,如果不想创建新列,可以执行以下操作
备注:
.CSV
文件读取为Pandas
DataFrame
,这应该是相关的-Import CSV file as a Pandas DataFrame(特别是this answer)