import re
list_with_penson_names_in_this_input = ["María Sol", "María del Carmen Perez Agüiño", "Melina Saez Sossa", "el de juego es Alex" , "Harry ddeh jsdelasd Maltus ", "Ben White ddesddsh jsdelasd Regina yáshas asdelas Javier Ruben Rojas", "Robert", 'Melina presento el nuevo presupuesto', "presento el nuevo presupuesto, María del Carmén "]
aux_list = []
for i in list_with_penson_names_in_this_input:
list_with_penson_names_in_this_input.remove(i)
aux_list = re.sub(, , i)
list_with_penson_names_in_this_input = list_with_penson_names_in_this_input + aux_list
aux_list = []
print(list_with_penson_names_in_this_input) #print fixed name list
如果在一行中有超过2个单词((?:\w\s*)+)
不是以大写字母开头,并且不是[del|de el|de]
类型的连接符,则应该从检测到的大写字母的第一个名称中删除它,并且检测到第二个名称(如果存在),将其作为列表中的单独元素。例如,["Harry ddeh jsdelasd Maltus "]
--〉["Harry", "Maltus"]
["Ben White ddesddsh jsdelasd Regina yáshas asdelas Javier Ruben Rojas"]
--〉["Ben White", "Regina", "Javier Ruben Rojas"]
如果名称不超过一个,则应删除两个或多个不以大写字母开头且不是[del|de el|de]
类型连接符的连续单词["Melina Martinez presento el nuevo presupuesto"]
--〉["Melina Martinez"]
["Melina presento el nuevo presupuesto"]
--〉["Melina"]
["presento el nuevo presupuesto, María del Carmén "]
--〉["María del Carmén"]
当涉及到修复那些不符合规范的元素时,此列表中的元素应该是:
["María Sol", "María del Carmen Perez Agüiño", "Melina Saez Sossa", "Alex" , "Harry", "Maltus", "Ben White", "Regina", "Javier Ruben Rojas", "Robert", 'Melina', "María del Carmén"]
对于中间不以大写字母开头的单词,我尝试了类似((?:\w\s*)+)
的方法,但即使这样,它也不会限制是否存在大写字母单词
1条答案
按热度按时间dffbzjpn1#
匹配以小写字母开头且连续两个或两个以上的单词,并使用
re.split
拆分匹配的单词。