我希望使用正则表达式将h1
的标题与HTML文件中的h6
匹配,而不返回h
标记本身。
考虑下面这段HTML文件,我想匹配“Welcome to my Homepage”、“SQL”、“RegEx”,但不匹配“This is not a valid HTML”(它被一对不匹配的标记包围)。
<body>
<H1>Welcome to my Homepage</H1>
Content is divided into two sections:<br/>
<h2>SQL</h2>
Information about SQL.
<h2>RegEx</h2>
Information about Regular Expressions.
<h3>This is not a valid HTML</h4>
</body>
我使用了(?<=<[hH]([1-6])>).*?(?=<\/[hH]\1>)
at regex101.com,但是它也可以计算标记<H1>
和<h2>
中的数字1
和2
。
怎么解决呢?
1条答案
按热度按时间afdcj2ne1#
它还匹配标签
<H1>
和<h2>
中的数字1
、2
。不完全是。匹配本身只捕获内容。数字来自你的lookbehind中的捕获组。你可以忽略它。