Python中的Beautifulsoup选择器为有效选择器返回空结果集

gkn4icbw  于 2024-01-05  发布在  Python
关注(0)|答案(1)|浏览(133)

我们想从this网页抓取一些内容。我们感兴趣的元素的HTML是这个(div.white-bg-border-radius-kousik.shadow-kousik-effect.mb-2)。
x1c 0d1x的数据
为此,我们试图在BeautifulSoup(Python)中使用此选择器。它不起作用。我尝试了三个四种变体,它们也不起作用,HTML显示此元素在页面中出现36次。选择器返回空白集或2-3个结果,所以我显然错过了一些东西。需要找到正确的方法。

  1. from bs4 import BeautifulSoup
  2. import os
  3. import urllib.request
  4. url = "https://bankcodesfinder.com/world-postal-codes/india"
  5. with urllib.request.urlopen(url) as response:
  6. html = str(response.read())
  7. soup = BeautifulSoup(html, 'html.parser')
  8. elements = soup.find_all('div.white-bg-border-radius-kousik.shadow-kousik-effect.mb-2') # This returns blank set
  9. elements2 = soup.findAll('div', class_=['shadow-kousik-effect', 'mb-2']) #returns just 3 elements, whereas this is a subset class search of the original list of 3 classes, so this should return at least 36 elements
  10. elements3 = soup.select('div.shadow-kousik-effect') # returns just 3 results

字符串

lhcgjxsq

lhcgjxsq1#

我认为这与你的response有关,在我的机器上,它给出了尾随\r\n的标签。

  1. <div\r\n class="white-bg-border-radius-kousik shadow-kousik-effect mb-2">
  2. <a \r\n="" class="nounderline" href="/world...>

字符串
使用requests,css选择器返回35个元素(search-box excluded)。

  1. import requests
  2. url = "https://bankcodesfinder.com/world-postal-codes/india"
  3. soup = BeautifulSoup(requests.get(url).text, "html.parser")
  4. css = "div.white-bg-border-radius-kousik.shadow-kousik-effect.mb-2"
  5. regions = [list(tag.stripped_strings) for tag in soup.select(css)]


输出量:

  1. # len(regions) # 35
  2. [
  3. ['ANDAMAN & NICOBAR ISLANDS', '102 Branches'],
  4. ['ANDHRA PRADESH', '10493 Branches'],
  5. ['ARUNACHAL PRADESH', '302 Branches'],
  6. ['ASSAM', '4022 Branches'],
  7. ['BIHAR', '9113 Branches'],
  8. ...
  9. ]

展开查看全部

相关问题