我正在尝试使用Python 3 requests.get
通过它的API从this page中检索数据。我对使用here中找到的数据检索数据并将整个表保存到我自己的JSON中感兴趣。
这是我目前的尝试
source = requests.get("https://www.mwebexplorer.com/api/mwebblocks").json()
with open('mweb.json', 'w') as json_file:
json.dump(source, json_file)
我已经看过了关于分页的其他问题,所有其他问题都可以通过编写for循环来遍历所有页面,但在我的特定情况下,当单击next转到下一页数据时,链接不会改变。我也不能使用scrapy的xpath方法来单击next,因为整个表及其分页不能通过HTML或XML访问。
有什么东西我可以添加到我的请求。得到包括表的所有页面的整个JSON?
1条答案
按热度按时间ddhy6vgd1#
根据你所使用的浏览器,它可能是不同的,但在chrome中,我可以在devtools的network选项卡中查看请求的全部细节。这表明它实际上是一个POST请求,而不是GET请求。如果你查看有效负载,你可以看到一堆键值对,包括
start
和length
。所以,试着像这样
或类似的内容。您可能需要包含表单数据的其他部分,具体取决于您得到的响应。
请记住,网站通常不喜欢当你试图这样刮他们。