所以,这次在我的抓取冒险中,我遇到了一个新的敌人--一个网站,它通过“转换”每个人都想抓取到的SVG图像的价格数据来阻止抓取者。一个简单的问题--什么是“首选”的工具或方法来持续抓取这样一个网站****?我想到了用Selenium下载整个页面的截图(由于该网站也有cloudflare刮擦检测功能,所以可以使用隐形功能),并使用tesseract进行OCR'ing,但仅下载一个页面就需要大约7秒(我有180个页面需要刮擦),因此,虽然这不是完全行不通,但可以说,它低于预期。
我的问题是,我应该寻找什么一般的方法、技术或工具来处理这个任务?有没有一种方法可以直接在网站上OCR'ing SVG,而不必下载它们/制作屏幕截图?或者我应该看什么?
作为参考,我尝试抓取的内容是-https://www.goatbots.com/set/kaldheim,即“buy”和“sell”列
1条答案
按热度按时间t30tvxxf1#
您可以尝试只截取价格元素的屏幕截图,而不是截取整个页面的屏幕截图。Check this post for partial screenshots
至于OCR'ing它与tesseract是最好的免费选择。
对于cloudflare,使用chrome未检测到的python驱动程序,这在绕过cloudflare方面非常成功。