如何刮取亚马逊商品列表?我正在使用htmlsimpledom刮取一个网站,但它正在显示编码文本代替。
下面是我的代码:
<?php
include('../simple_html_dom.php');
ini_set('max_execution_time', 300);
ob_start();
echo $html = file_get_html('https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Damazon-devices&field-keywords=');
?>
它返回如下所示的文本:
(2)、(3)、(4)、(0)、(mN)、(b)、(A)/($)、(6)、(k)、(b)、(n)、(y)、(q);阿京证9号和阿京证 * D号:************| "1 ====}
2条答案
按热度按时间l7mqbcuq1#
看看你浏览器的网络标签中的响应头,在Firefox中,我得到了这个:
特别是,您会对
content-encoding: gzip
感兴趣,这意味着内容是用指定算法压缩的,您需要解压缩它。你可以自己去做,但是最好是使用一个可以自动完成的库。我会尝试从Goutte开始,我猜它包含了一个解压缩系统。(请记住,如果你对JavaScript呈现的任何东西感兴趣,像
file_get_contents()
和Goutte这样的非JS解决方案是行不通的,你需要一个完整的JS/浏览器驱动程序)。bxgwgixi2#
如果您使用 curl 添加: