我正在尝试从这个HTML代码子集中获取URL。基本上,我发现所有的<item>
标签都使用soup.find_all('item', class_="sale-item")
,我想从第一个href中提取URL。有人能帮忙吗?
<item class="sale-item" style="margin:6px; padding: 0; text-decoration:none;" tabindex="0" title="">
<style="text-decoration:none; display:block"="" height:100%;="" href="http://www.assus.com/12165456ALPHA.html">
<header>
<div class="smaht-header" style="width:100%; color:#000000; background-color:#EEEEEE;"><span style="color:#2a6293!important">ONLINE-ONLY</span></div>
<div style="color:#2a6293; width:100%; float:left">
....code continues to </item>
很多BS 4解决方案都假设href封装在a
标签中。我不确定如何继续这个设置...提前感谢你!
1条答案
按热度按时间djmepvbi1#
如果你只想要一个
item
标签中所有前href
的列表(item_links
如下),你可以使用select
(带有CSS选择器)和list comprehension:如果你想循环
item
并做更多的事情而不仅仅是获取链接,你可以使用for
循环,如下所示:如果您想要遍历
item
,而不管它们是否包含任何带有href
的标签:无论属性属于哪种类型的标签,这些都将找到第一个
href
。