您的位置:新闻资讯 >文章内容
如何应对网站反爬虫措施
来源:互联网 作者:admin 时间:2019-01-16 17:47:04

    我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,一切看起来都是那么美好,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,这时候打开网页一看,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。那么如何应对网站反爬虫措施呢?


    1.使用代理


    在众多的网站防爬措施中,有一种是根据ip的访问频率进行限制的,在某段时间内,当某个ip的访问量达到一定的阀值时,该ip会被拉黑、在一段时间内被禁止访问。这种时候,可以通过降低爬虫的频率,或者更改ip来应对。后者就需要有一个可用的代理ip池,以供爬虫工作时切换。


    可以换着用多个代理IP来进行访问,防止同一个IP发起过多请求而被封IP,比如:


image.png


    2.伪造cookies


    若从浏览器中可以正常访问一个页面,则可以将浏览器中的cookies复制过来使用,比如:


image.png


    注:用浏览器cookies发起请求后,如果请求频率过于频繁仍会被封IP,这时可以在浏览器上进行相应的手工验证(比如点击验证图片等),然后就可以继续正常使用该cookies发起请求。


    3.伪造User-Agent


    在请求头中把User-Agent设置成浏览器中的User-Agent,来伪造浏览器访问。比如:


image.png


    在每次重复爬取之间设置一个随机时间间隔


image.png


    如何应对网站反爬虫措施?本文就如何解决这个问题总结出一些应对措施,这些措施可以单独使用,也可以同时使用,效果更好。


相关文章内容简介
在线咨询
微信公众号

微信公众号

回到顶部