您的位置:新闻资讯 >文章内容
怎么控制爬虫速度?setting设置
来源:互联网 作者:admin 时间:2018-11-22 15:30:30

    提取数据能够获得许多有用的信息,但在采集是通常会遇到一些问题而导致爬虫被封,其中采集速度问题如何解决呢?怎么控制爬虫速度?参考做法:


    1.修改是否遵守爬虫协议为False


怎么控制爬虫速度


    2.修改并发请求数,修改为1,或者2,越小爬取速度越慢,太快容易被识别到


怎么控制爬虫速度


    3.修改下载延迟时间,DOWNLOAD_DELAY设置越大请求越慢


爬虫采集


    4.开启中间键


爬虫速度


    5.开启PIPELINES,一般在要存储数据的时候开启


怎么控制爬虫速度


    6.开启如下设置


如何控制爬虫速度


    爬取的过程中遇到一个问题就是,如果爬取页面设置为从page1到page10000,爬取的结果有很多漏掉的。然后将设置修改为如上,还是会有漏掉的。


    解决办法是将DOWNLOAD_DELAY时间设置的更大一些。


    怎么控制爬虫速度方法不少,以上仅供参考!如果需要使用代理IP突破IP限制问题,建议使用精灵代理,精灵代理拥有上千万的IP池,IP均来源于家庭拨号,IP真实。


相关文章内容简介
在线咨询
微信公众号

微信公众号

回到顶部