有一个网页是一个数据集的互动版本,你可以在那里查看一个数据示例和一些相关的标签。我试图把这些数据放入一个Pandas数据框,在那里我提取了示例和所有相关的标签。数据被分为多个页面,并为我想要提取的每个标签提供了固定的框。我以前从来没有做过这样的事情,所以我想知道在Python中是否有什么方法可以有效地做到这一点,我应该查看哪些库?下面是我想提取的一个示例:
mwngjboj1#
根据数据的准确性,有几个不同的数据库,但其中有几个只是直接使用Pandas、美味的汤或 selenium 。我不会建议使用Pandas的网页刮取,如果你期望最终刮取更多的东西,但它是好的,作为一个快速的替代方案,如果HTML是在一个很好的方式结构,你不需要与网页互动。我认为beautifulsoup4是最好的选择,因为它易于使用,并且用于从HTML中提取信息。如果您无法直接从HTML访问数据,或者需要与网页进行实际交互,selenium将是一个不错的选择。
qeeaahzv2#
有很多方法来刮数据从一个网站,重要的是要选择最好的技术,根据你想要刮的网站,你可以选择最流行的像Scrapy,BeautifulSoup4,Selenium,Playwright或任何其他允许你从一个网站提取你想要的刮,另一方面,您可以选择一些工具来帮助您对提取的数据进行后处理或存储,如Pandas、Redis。如果您打算收集大量数据,强烈建议使用一个基础设施来帮助您完成此过程,如estela,它提供了成功提取数据的所有机制。
2条答案
按热度按时间mwngjboj1#
根据数据的准确性,有几个不同的数据库,但其中有几个只是直接使用Pandas、美味的汤或 selenium 。
我不会建议使用Pandas的网页刮取,如果你期望最终刮取更多的东西,但它是好的,作为一个快速的替代方案,如果HTML是在一个很好的方式结构,你不需要与网页互动。
我认为beautifulsoup4是最好的选择,因为它易于使用,并且用于从HTML中提取信息。
如果您无法直接从HTML访问数据,或者需要与网页进行实际交互,selenium将是一个不错的选择。
qeeaahzv2#
有很多方法来刮数据从一个网站,重要的是要选择最好的技术,根据你想要刮的网站,你可以选择最流行的像Scrapy,BeautifulSoup4,Selenium,Playwright或任何其他允许你从一个网站提取你想要的刮,另一方面,您可以选择一些工具来帮助您对提取的数据进行后处理或存储,如Pandas、Redis。
如果您打算收集大量数据,强烈建议使用一个基础设施来帮助您完成此过程,如estela,它提供了成功提取数据的所有机制。