magento bash脚本缓存预热器/站点爬虫

am46iovg  于 2023-04-12  发布在  其他
关注(0)|答案(3)|浏览(124)

我正试图运行一个网站爬虫,使用我的sitemap.xml我有清漆上magento运行,我想热身后该高速缓存。
我正在使用turpentine's warm cache script,但由于某种原因,它得到0个URL。
我的xml是here
我已经研究了一下,我不能拿出一个bash脚本,得到的网址在我的xml..不幸的是,我不是linux大师。你能帮助我一些提示/文档链接?任何帮助将不胜感激,谢谢。
后期编辑:
当我运行www.example.com时warm-cache.sh我得到

Getting URLs from sitemap... 
 Warming 0 URLs using 4 processes...

我还找到了一个很好的crawl脚本:

wget -O - easyfarm.ro/sitemap.xml | grep -E -o '<loc>.*</loc>' | sed -e 's/<loc>//g' -e 's/<\/loc>//g' | wget -i - -p -r -leve=2 --delete-after

但是,它也不访问任何url,我得到:

--2013-11-19 16:53:16--  http://easyfarm.ro/sitemap.xml
Resolving easyfarm.ro (easyfarm.ro)... 188.240.47.148
Connecting to easyfarm.ro (easyfarm.ro)|188.240.47.148|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/xml]
Saving to: `STDOUT'

    [ <=>                                                                                             ] 7,703       --.-K/s   in 0s

2013-11-19 16:53:17 (883 MB/s) - written to stdout [7703]
3duebb1j

3duebb1j1#

确保您已经安装了xpath并且可用于脚本。
更一般地说,确保脚本中调用的每个命令都可用-xpathcurlsedgrepcatxargssiegerm。其中一些在大多数系统上默认可用,一些则不可用。
每个发行版的安装过程都不同,例如,在Ubuntu Linux中,您可以使用apt-get install libxml-xpath-perl来获得xpath

lskq00tm

lskq00tm2#

我们遇到了松节油预热的问题,所以我们写了自己的bash脚本,它首先使用wget来获取一个url列表,然后使用curl来预热你正在运行的许多varnish缓存。
https://gist.github.com/jaseclamp/27c4b74e535ddd749bbe
如果你碰巧使用了mod pagespeed,这里也有清除mod pagespeed的代码。如果不适用,可以注解掉。

ryevplcw

ryevplcw3#

此工具使用sitemap.xml并循环遍历每个URL以预热该高速缓存:https://pagespeedplus.com/blog/cache-warmer,这比编写脚本并管理服务器来运行它要容易一些。

相关问题