import re contents="""<tag> </tag><t>text</t>""" shorted= re.sub(r'(?s)<tag>.*?</tag>[^\w\s]*', '', contents).replace('\n', '') print(shorted) print()
结果:
t>text</t>
应为“<t>text</t>“,但缺少“<t>“的第一个“<“,为什么?
<t>text</t>
<t>
<
z4iuyo4d1#
我推荐使用XML解析器来处理XML,但是如果您更喜欢re,可以尝试re.compile()和findall():
re
re.compile()
findall()
import re contents="""<tag> </tag><t>text</t>""" pattern = re.compile("<t>.*") out = re.findall(pattern, contents) print(out[0])
输出:
1条答案
按热度按时间z4iuyo4d1#
我推荐使用XML解析器来处理XML,但是如果您更喜欢
re
,可以尝试re.compile()
和findall()
:输出: