您的位置:新闻资讯 >文章内容
Python如何解决403 Forbidden错误
来源:本站 作者:admin 时间:2019-05-07 17:01:28

在爬虫工作的过程中,我们总能会遇到一些问题,比如 407 authentication required ,这个是授权问题,比如,HTTP Error 403: Forbidden,这个可能是被反爬虫识别了,被目标服务器拒绝请求。


Python如何解决403 Forbidden错误


那么403 Forbidden问题该怎么解决呢?这是很多朋友也会经常遇到的问题。如何做才不会被反爬虫识别呢?


一、使用高匿代理IP。代理IP按匿名程度可以分为透明代理、普匿代理、高匿代理。透明代理会透露本机IP,普匿代理会透露使用了代理IP,这两者都会暴露使用了代理IP,很容易识别,高匿代理则不会暴露。


二、尽量使用高匿名的代理IP。如果有很多其他人和你使用一样的IP同时访问一样的网站,那么也很容易被识别,当这些IP访问频率过快或者访问测试达到了目标网站的阈值时,则会被封IP。这时候,可以选择精灵代理的高匿名代理IP。


三、伪装成浏览器。


除了上面两个原因外,还有可能是代码里没设置User-Agent导致的。对有些 header 要特别留意,Server 端会针对这些 header 做检查。User-Agent 有些 Server 或 Proxy 会检查该值,用来判断是否是浏览器发起的 Request


Content-Type 在使用 REST 接口时,Server 会检查该值,用来确定 HTTP Body 中的内容该怎样解析。


这时可以通过修改http包中的header来实现,代码片段如下:


import urllib2headers={    'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}request=urllib2.Request(    url='http://********',    headers=headers)print urllib2.urlopen(request).read()


相关文章内容简介
在线客服
大客户VIP渠道
点击这里给我发消息
讨论QQ群
HTTP代理IP爬虫
客服电话
13318873961