我从下面的这个网站中抓取链接,有超过4000个值,但我设法只获取了78个列表。当我运行第一个代码时,有一个很好的输出,说它都被附加到列表中
for i in range(1, 206):
url = f"https://www.oglasnik.hr/prodaja-automobila?page%7Bi%7D=" ##added loop through pages function, turned string into variable
page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
a = soup.find_all('a', href=re.compile('https://www.oglasnik.hr/prodaja-automobila/'))
list1=\[\]
for ele in a:
link = ele.get('href')
list1.append(link)
print(f"Appended link: {link}")
我把所有的链接都刮了出来,当我调出列表时,得到了一个大约4000个链接的小输出,使用:print(list1)
78个链接
我也试过把它做成一个csv文件,我得到了78行。
df = pd.DataFrame(list(zip(list1)), columns = \['Link'\]) #adding the list to csv file
try:
df.to_csv('links.csv', index=False)
print("Links saved to CSV file successfully!") #adding expection to recognize error
except Exception as e:
print(f"Error saving links to CSV file: {e}")
1条答案
按热度按时间blmhpbnm1#
要将所有链接放入DataFrame,您可以使用下一个示例:
图纸:
并保存
data.csv
,其中包含4157个链接(Libre Office截图):