您的位置:新闻资讯 >文章内容
如何使用User Agent和代理IP隐藏身份?
来源:精灵代理 作者:admin 时间:2019-11-13 15:32:29

  如何使用User Agent和代理IP隐藏身份?

  一、为何要设置User Agent

  有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的身份。此时,我们就可以通过设置User Agent的来达到隐藏身份的目的,User Agent的中文名为用户代理,简称UA。

  User Agent存放于Headers中,服务器就是通过查看Headers中的User Agent来判断是谁在访问。在Python中,如果不设置User Agent,程序将使用默认的参数,那么这个User Agent就会有Python的字样,如果服务器检查User Agent,那么没有设置User Agent的Python程序将无法正常访问网站。

如何使用User Agent和代理IP隐藏身份

  Python允许我们修改这个User Agent来模拟浏览器访问,它的强大毋庸置疑。

  二、常见的User Agent

  1.Android

  Mozilla/5.0(Linux;Android 4.1.1;Nexus 7 Build/JRO03D)AppleWebKit/535.19(KHTML,like Gecko)Chrome/18.0.1025.166 Safari/535.19

  Mozilla/5.0(Linux;U;Android 4.0.4;en-gb;GT-I9300 Build/IMM76D)AppleWebKit/534.30(KHTML,like Gecko)Version/4.0 Mobile Safari/534.30

  Mozilla/5.0(Linux;U;Android 2.2;en-gb;GT-P1000 Build/FROYO)AppleWebKit/533.1(KHTML,like Gecko)Version/4.0 Mobile Safari/533.1

  2.Firefox

  Mozilla/5.0(Windows NT 6.2;WOW64;rv:21.0)Gecko/20100101 Firefox/21.0

  Mozilla/5.0(Android;Mobile;rv:14.0)Gecko/14.0 Firefox/14.0

  3.Google Chrome

  Mozilla/5.0(Windows NT 6.2;WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/27.0.1453.94 Safari/537.36

  Mozilla/5.0(Linux;Android 4.0.4;Galaxy Nexus Build/IMM76B)AppleWebKit/535.19(KHTML,like Gecko)Chrome/18.0.1025.133 Mobile Safari/535.19

  4.iOS

  Mozilla/5.0(iPad;CPU OS 5_0 like Mac OS X)AppleWebKit/534.46(KHTML,like Gecko)Version/5.1 Mobile/9A334 Safari/7534.48.3

  Mozilla/5.0(iPod;U;CPU like Mac OS X;en)AppleWebKit/420.1(KHTML,like Gecko)Version/3.0 Mobile/3A101a Safari/419.3

  上面列举了Andriod、Firefox、Google Chrome、iOS的一些User Agent,直接copy就能用。

  三、IP代理的使用

  1.为何使用IP代理

  UA已经设置好了,但是还应该考虑一个问题,程序的运行速度是很快的,如果我们利用一个爬虫程序在网站爬取东西,一个固定IP的访问频率就会很高,这不符合人为操作的标准,因为人操作不可能在几ms内,进行如此频繁的访问。所以一些网站会设置一个IP访问频率的阈值,如果一个IP访问频率超过这个阈值,说明这个不是人在访问,而是一个爬虫程序。推荐阅读:Python爬虫如何抓取免费代理IP?

  .代理IP选取

  在写代码之前,先在代理IP网站选好一个IP地址,这里推介亿牛云代理。他们家产品比较齐全,api接口调用和动态转发调用都支持,而且代理是自营线路,电信专线。我稳定性,可用性,速度吗,延迟都是非常好的。这里就展示下他们的动态转发代理进行示例,动态转发就是他们会提供一个固定的ip地址给你,,直接配置到程序里面就可以使用,不需要自己去调用ip,也不需要自己管理ip池,使用起来超级方便简单,对于懒人来说绝对是最好的选择。

  代码示例,这里是以python为例子

  1、Python¶

  requests

  #!-*-encoding:utf-8-*-

  import requests

  import random

  #要访问的目标页面

  targetUrl="http://httpbin.org/ip"

  #要访问的目标HTTPS页面

  #targetUrl="https://httpbin.org/ip"

  #代理服务器

  proxyHost="t.16yun.cn"

  proxyPort="31111"

  #代理隧道验证信息

  proxyUser="username"

  proxyPass="password"

  proxyMeta="http://%(user)s:%(pass)s %(host)s:%(port)s"%{

  "host":proxyHost,

  "port":proxyPort,

  "user":proxyUser,

  "pass":proxyPass,

  }

  #设置http和https访问都是用HTTP代理

  proxies={

  "http":proxyMeta,

  "https":proxyMeta,

  }

  #设置IP切换头

  tunnel=random.randint(1,10000)

  headers={"Proxy-Tunnel":str(tunnel)}

  resp=requests.get(targetUrl,proxies=proxies,headers=headers)

  print resp.status_code

  print resp.text

相关文章内容简介
在线咨询
大客户经理
大客户经理
13318873961

大客户经理微信

微信公众号

微信公众号

回到顶部