我需要匹配并捕获标记对之间的信息。每行有两对标记。一对标记如下所示:
<a> </a> <b>hello hello 123</b> stuff to ignore here <i>123412bhje</i> <a>what???</a> stuff to ignore here <b>asd13asf</b> <i>who! Hooooo!</i> stuff to ignore here <i>df7887a</i>
预期输出为:
hello hello 123 123412bhje
what??? asd13asf
who! Hooooo! df7887a
我需要特别使用以下格式:
M = re.findall(“”, linein)
1条答案
按热度按时间chhkpiq41#
为了忽略第一个
<a> </a>
标记,正则表达式必须假设标记内的第一个字符不包含空格,但此后允许使用空格。以下是其他假设:
<b> </b> <i> </i>
uppercase letters
、lowercase letters
、numbers
和符号! and ?
。如果标记内有其他符号,则可能无法准确匹配。以下是基于您的示例的工作版本:
输出: