您的位置:新闻资讯 >文章内容
爬虫使用代理防封IP
来源:本站 作者:admin 时间:2019-05-28 16:16:33

在写爬虫爬取数据的时候,经常会遇到“HTTP Error 403: Forbidden”的提示,其实它只是一个HTTP状态码,表示你在请求一个资源文件但是nginx不允许你查看。不属于技术上的错误,但也需要技术解决。

 

哪些场景需要返回403状态码的场景?

 

1、网站禁止特定的用户访问所有内容,例:网站屏蔽某个ip访问。

 

2、访问禁止目录浏览的目录,例:设置autoindex off后访问目录。

 

3、用户访问只能被内网访问的文件

 

以上几种常见的需要返回 403 Forbidden 的场景。

 

所以为了防止返回403状态码防止爬虫被封,是需要及时更换不同IP,下面记录一下python 使用代理爬取的过程。

 

直接上代码:

 

 爬虫使用代理防封IP

 

爬虫经验说明:

 

免费的代理很不太稳定,而且可用率太低,不高匿,安全性不高,如果大量长时间爬取,还是稍微花点小钱使用IP代理商提供的,高效安心。

 

精灵代理可为您提供海量IP资源,官网可领取免费试用时长,我们保证资源的稳定性和可用性,给您带来更好的“互联网+”时代的体验,我们还可以针对您的要求为您提供高质量的定制服务,助您不间断获取行业数据,赢在大数据时代,更多问题官网咨询客服。

相关文章内容简介
在线咨询
大客户经理
大客户经理
13318873961

大客户经理微信

微信公众号

微信公众号

回到顶部