当我使用BeautifulSoup时,我从href返回了以下代码。
"/url?q=http://druid8.sit.aau.dk/acc_papers/kdln4ccpef78ielqg01fuabr81s1.pdf&sa=U&ei=HkNsUauqN_GQiAf5p4CwDg&ved=0CDkQFjAJ&usg=AFQjCNGk0DTzu2K2ieIKS-SXAeS5-VYTgA"
最简单的方法是什么http://....“pdf以便我可以下载文件?
for link in soup.findAll('a'):
try:
href = link['href']
if re.search(re.compile('\.(pdf)'), href):
print href
except KeyError:
pass
2条答案
按热度按时间sshcrbum1#
一种更具python风格的方法是
urlparse
库:这给出了:
如果您使用Python 3,synatax会略有不同,上面显示的是Python2.7版本。如果你也喜欢其他参数,这是非常好的,例如:
yrdbyhpb2#
他们之间的一致性如何?
如果没有正则表达式,则可以工作。这也可以做到:
它们似乎都适用于我的交互式终端:
您也可以使用此正则表达式: