我们想从this网页抓取一些内容。我们感兴趣的元素的HTML是这个(div.white-bg-border-radius-kousik.shadow-kousik-effect.mb-2
)。
x1c 0d1x的数据
为此,我们试图在BeautifulSoup
(Python)中使用此选择器。它不起作用。我尝试了三个四种变体,它们也不起作用,HTML显示此元素在页面中出现36次。选择器返回空白集或2-3个结果,所以我显然错过了一些东西。需要找到正确的方法。
from bs4 import BeautifulSoup
import os
import urllib.request
url = "https://bankcodesfinder.com/world-postal-codes/india"
with urllib.request.urlopen(url) as response:
html = str(response.read())
soup = BeautifulSoup(html, 'html.parser')
elements = soup.find_all('div.white-bg-border-radius-kousik.shadow-kousik-effect.mb-2') # This returns blank set
elements2 = soup.findAll('div', class_=['shadow-kousik-effect', 'mb-2']) #returns just 3 elements, whereas this is a subset class search of the original list of 3 classes, so this should return at least 36 elements
elements3 = soup.select('div.shadow-kousik-effect') # returns just 3 results
字符串
1条答案
按热度按时间lhcgjxsq1#
我认为这与你的
response
有关,在我的机器上,它给出了尾随\r\n
的标签。字符串
使用
requests
,css选择器返回35个元素(search-box excluded)。型
输出量:
型