您的位置:新闻资讯 >文章内容
爬虫ip代理http返回状态码介绍
来源:http://www.ipjldl.com/News/getList/catid/17/id/1225.html 作者:admin 时间:2019-10-19 16:30:11

  爬虫ip代理http返回状态码介绍

爬虫ip代理http返回状态码介绍

  1、 爬虫代理加强版

  (1)代理使用失败

  Ø让对方截图看看代理代码,代理信息是否提取配置正确。重点注意必须使用代理域名,不能是代理服务器IP

  Ø要求对方复制demo,然后加上ua随机优化,按照所开代理的请求数,按照300毫秒为单位进行管理,运行程序后统计错误信息和http的状态码。

  ²代理链接失败

  原因:对方是否有防火墙,导致无法链接我们服务器;对方开的代理是否过期。

  ²http状态码429

  原因:请求超过代理限制,严格按照所开代理的请求数,按照300毫秒为单位进行管理。如果限制之后,既然大量429,需要优化爬虫策略,应该是目标网站返回的错误提示。

  ²http状态码302

  原因:访问的是https网站,会自动跳转一次,正常现象;访问的http网站,网站拒绝服务,大量302需要优化爬虫策略

  ²http状态码407

  原因:代理认证信息失败,让对方严格按照demo配置代理信息

  ²http状态码403503 或504

  原因:少量不影响,大量403503或504需要优化爬虫策略

  ²http请求超时

  原因:http请求的超时设置为10秒,尤其是对方访问国外网站的时候。

  (2)没法确认代理是否使用

  要求对方直接复制demo,访问http://httpbin.org/ip,看看返回的IP,如果是我们的代理IP,就表示代理链接成功

  (3)爬虫代理使用成功,请求失败率较高

  统计错误信息和http的状态码,将200和各自错误信息进行统计,看看比例分布,参考第(1)项里面的http状态码进行解答。

相关文章内容简介
在线咨询
大客户经理
大客户经理
13318873961

大客户经理微信

微信公众号

微信公众号

回到顶部